Was ist eigentlich ein Konfidenzintervall?

Geschrieben von Dr. Eva Arnold Veröffentlicht in Methodenvalidierung

Bei der Herstellung eines Arzneimittels sind Kontrollen mandatorisch. Hier kommt man schnell auf ein Problem: Um den Patienten zu schützen, möchte man keine Fehler in einem Produktionsschritt übersehen. Andererseits ist eine 100% Kontrolle in einigen Produktionsschritten nicht möglich. So kann man beispielsweise nicht jede einzeln verpackte Tablette wieder auspacken und auf ihre Beschaffenheit untersuchen, nur um sicher zu sein, dass kein Fehler übersehen wurde.

Aus diesem Grund nimmt man eine Stichprobe, das heißt, man entscheidet sich für eine gewisse Menge an Tabletten pro Charge, um diese auf Fehler zu untersuchen. Anschließend muss von dieser Stichprobe ausgehend eine Schätzung abgegeben werden, die sich auf die gesamte Charge (statistisch auch als Population oder Grundgesamtheit bezeichnet) bezieht. Hier kommt das sogenannte Konfidenzintervall (oder auch Vertrauensintervall oder Vertrauensbereich) ins Spiel.

So werden bei In-Prozess-Kontrollen (IPKs) ermittelte Werte mit einem zuvor definierten Soll-Wert verglichen. Wenn man davon ausgeht, dass die Produktion diesen Wert sehr genau einhält, schwanken also die gemessenen Werte normalverteilt um diesen Soll-Wert. Einfach gesagt: Eine Tablette soll 400 Milligramm eines Wirkstoffs enthalten. Die produzierten Tabletten enthalten selten exakt 400 Milligramm, sondern schwanken beispielsweise zwischen 390 und 410 Milligramm. Da der Produzent natürlich bemüht ist, den Sollwert von 400 Milligramm einzuhalten, kommen die meisten Tabletten sehr nah an die 400 Milligramm heran, beispielsweise enthalten die meisten Tabletten zwischen 395 und 405 Milligramm. Würde man eine komplette Tablettencharge und die jeweiligen Gewichte des Wirkstoffs gegeneinander auftragen, würde man eine klassische Normalverteilung erhalten. Daraus lässt sich auch der „echte“ Mittelwert, der sogenannte Erwartungswert µ, bestimmen. Als Qualitätsmerkmal haben wir in der Spezifikation festgelegt, dass dieser „echte“ Mittelwert µ zwischen 395 und 405 Milligramm liegen soll.

Wie oben bereits erwähnt, können wir nicht jede einzelne Tablette untersuchen. Daher bleibt dieser Erwartungswert µ für uns unbekannt. Da wir dennoch wissen wollen, ob die aktuelle Tablettencharge im Mittel dem Soll-Wert des Wirkstoffgehalts entspricht, ziehen wir also eine Stichprobe von beispielsweise 100 Tabletten und analysieren diese. Mit sehr hoher Wahrscheinlichkeit unterscheidet sich der Mittelwert der Stichprobe x vom „echten“ Mittelwert µ. Andersherum gesagt: Es ist sehr unwahrscheinlich, mit einem Stichprobenmittel x auf exakt den Erwartungswert µ zu kommen, den man haben möchte. Zudem wird sich der Mittelwert der Stichprobe dieser Charge vom Mittelwert der nächsten Charge ein wenig unterscheiden. Nun stehen wir vor dem folgenden Problem: Unser Stichprobenmittelwert x ist jeweils nur eine Schätzung, und den „echten“ Mittelwert µ können wir nie und nimmer bestimmen, ohne unsere ganze Charge zu zerstören.

Um dieses Problem zu umgehen, legen wir einen Bereich fest, in dem dieser „echte“ Mittelwert µ zu vermuten ist. Mit einem „Bereich“ berücksichtigen wir, dass sich die Messwerte von verschiedenen Stichproben / Chargen unterscheiden und mit „vermuten“ drücken wir eine gewisse Wahrscheinlichkeit aus. Dieser Bereich wird Konfidenzintervall genannt. Je größer dieser Bereich ist, desto wahrscheinlicher enthält dieser auch den „echten“ Mittelwert µ. Nun könnte man meinen, es sei von Vorteil, ein möglichst breites Konfidenzintervall zu bestimmen, damit der „echte“ Mittelwert µ immer enthalten ist. Je größer das Konfidenzintervall ist, desto schlechter ist jedoch die Präzision der Schätzung. Entsprechend wollen wir also ein möglichst schmales Konfidenzintervall. Damit kommen wir zu einem weiteren Problem: Bei einer zufällig gezogenen Stichprobe können auch Ausreißer dabei sein, die sich bei der oben genannten Normalverteilung zum Beispiel am äußeren Rand der Wirkstoffmenge befinden. Diese Ausreißer enthalten selbst mit dem Konfidenzintervall nicht den „echten“ Mittelwert µ. Die Wahrscheinlichkeit, solche Ausreißer in der Stichprobe zu haben, ist zwar gering, aber nicht unmöglich. Um diese Wahrscheinlichkeit miteinzubeziehen, legt man ein sogenanntes Konfidenzniveau (auch Vertrauensniveau genannt) fest. Es gibt Auskunft darüber, mit welcher Wahrscheinlichkeit das Konfidenzintervall auch wirklich den „echten“ Mittelwert µ enthält. Nehmen wir ein Konfidenzniveau von 95% an, so bedeutet dies, dass 95% der Stichprobenwerte mit Konfidenzintervall den „echten“ Mittelwert µ enthalten. 

Doch wie legt man das Konfidenzintervall / Vertrauensintervall fest? Die Breite des Konfidenzintervalls hängt von der Standardabweichung (σ) der Stichprobe und dem gewählten Konfidenzniveau ab. Die Wahl des Konfidenzniveaus ist einem selbst überlassen. In der Pharmabranche wird üblicherweise als Konfidenzniveau 95% verwendet. Das gewählte Konfidenzniveau wird verwendet, um den kritischen z-Wert mit Hilfe einer Normalverteilungstabelle zu ermitteln. Für ein Konfidenzniveau von 95% ergibt das einen z-Wert von 1,96. Mit diesem z-Wert, der Standardabweichung (σ) der Stichprobe und der Stichprobengröße (n) lässt sich das Konfidenzintervall (KI) für den "wahren" Wert µ gemäß folgender Formel bestimmen:

KI für µ = x ± z * σ / √(n)

Nehmen wir an, wir haben 100 Tabletten analysiert und kommen auf einen Mittelwert x von 398,8 Milligramm und eine Standardabweichung σ von 12,4 Milligramm. Unsere Vertrauensgrenzen für unser Konfidenzintervall berechnen sich damit:

µ = x ± 1,96 * σ / √(n) = 398,8 mg ± 1,96 * 12,4 mg / √(100) = 398,8 mg ± 2,43 mg

Das heißt, der „echte“ Mittelwert µ liegt im Konfidenzintervall [396,4; 401,2] und wäre damit innerhalb unserer Spezifikation (zwischen 395 und 405 mg).

Um nicht altmodisch mit Hilfe einer Normalverteilungstabelle rechnen zu müssen, können wir in Excel die Funktion KONFIDENZ.NORM verwenden. Neben den Werten für die Standardabweichung σ unserer Stichprobe und die Stichprobengröße n ist „α“ anzugeben. Hinter α verbirgt sich nichts anderes als die Irrtumswahrscheinlichkeit, also der Wert, der übrig bleibt, wenn man von 1 das Konfidenzniveau subtrahiert. Entsprechend ist für ein 95%iges Konfidenzniveau α gleich 0,05 (1 - 0,95 = 0,05). Bei kleinen Stichproben ist nicht die Normal-, sondern die t-Verteilung das Maß aller Dinge, weswegen für kleine Stichproben die Excel-Funktion KONFIDENZ.T auswählen ist.

Je größer die Standardabweichung σ, also die Variation innerhalb unserer Stichprobe ist, desto breiter ist unser Konfidenzintervall. Hieraus ergibt sich auch, weshalb ein breites Konfidenzintervall ein Zeichen für eine schlechte Schätzung darstellt (à schlechtere Präzision). Gleichzeitig lässt sich unser Konfidenzintervall verkleinern, indem wir unsere Stichprobengröße n erhöhen. Wenn wir unsere Stichprobe erhöhen, reduzieren wir gleichzeitig auch unsere Streuung und damit Standardabweichung, da wir, je mehr Tabletten wir analysieren, der „echten“ Normalverteilung immer näherkommen. Würden wir beispielsweise nur 10 Tabletten untersuchen, kämen wir bei gleichem Mittelwert und gleicher Standardabweichung auf Vertrauensgrenzen von 7,8, womit unsere Schätzung mit dem Konfidenzintervall [391,0; 406,6] nicht mehr der Spezifikation entspricht und die Charge nicht freigegeben werden kann. Außerdem trägt die Wahl des Konfidenzniveaus zur Breite des Konfidenzintervalls bei: ein Konfidenzintervall basierend auf einem 99%igen Konfidenzniveau ist breiter als eins, welches auf einem 95%igen Konfidenzniveau beruht, weil man mit 99% ja mehr Sicherheit garantieren möchte als mit 95%.

Stellen wir also abschließend fest: Je größer die Stichprobe n gewählt ist, desto schmaller ist das Konfidenzintervall / Vertrauensintervall und desto präziser ist unsere Schätzung. Neben dem Konfidenzniveau ist die Wahl der Stichprobe also maßgeblich für die Vertrauenswürdigkeit einer Kontrolle eines Herstellungsprozesses.

Um den Bogen zur Methodenvalidierung zu spannen, soll abschließend erwähnt werden, dass auch hierfür die Kenntnis der Berechnung von Konfidenzintervallen notwendig ist, da die Angabe von Konfidenzintervallen von der ICH Q2(R1) Guideline sowohl für den Parameter Richtigkeit als auch für alle Arten der Präzision empfohlen wird. Wie sinnvoll das jedoch ist und welche anderen Anwendungsmöglichkeiten es im Bereich der Methodenvalidierung für Konfidenzintervalle gibt, darüber gibt dieser Blogbeitrag Auskunft. 

Aber apropos Anwendungsmöglichkeiten… Konfidenzintervalle können nicht nur um einen Wert, sondern auch um einen Verlauf, herum gelegt werden. Dies macht z.B. bei Stabilitätsstudien zur Festlegung der Haltbarkeit der Tabletten vor deren Vermarktung Sinn. Dazu verfolgen wir zu festgelegten Zeitpunkten mit stabilitätsanzeigenden Methoden z.B. den Gehalt der Tabletten bei einer bestimmten Anzahl an Chargen (z.B. 3) und vergleichen ihn mit den Vorgaben der Spezifikation. Wenn wir den Gehalt auf der y-Achse gegen die Zeit in Monaten auf der x-Achse auftragen, werden wir feststellen, dass der Gehalt im Laufe der Zeit wahrscheinlich immer ein wenig weiter abnehmen wird. Auch wenn wir die Datenpunkte aus den Mittelwerten der 3 untersuchten Chargen gebildet haben, so ist unser untersuchter Verlauf doch nur eine kleine Stichprobe und bei der Untersuchung einer größeren Stichprobe (also vielen weiteren Chargen) wären auch stärker abfallende Verläufe denkbar. Um daher mit einer gewählten Wahrscheinlichkeit (à s.o. Konfidenzniveau) alle möglichen Verläufe abzubilden, spannen wir zu einem bestimmten Zeitpunkt ein Konfidenzintervall um die abnehmende Regressionsgerade unser Datenpunkte herum und zeigen damit den wahren Stabilitätsverlauf. Der Zeitpunkt, an dem sich die untere Grenze des Konfidenzintervalls mit der unteren Spezifikationsgrenze für den Gehalt schneidet, ist die maximale Haltbarkeit.

Anschließend könnte das um die in der Zulassung eingereichten Stabilitätsdaten herumgelegte Konfidenzintervall auch als Eingriffsgrenzen für out-of-trend (OOT) Ergebnisse genutzt werden. Dies könnte im Rahmen eines Trendings für Resultate, die im Zuge fortlaufender Stabilitätsstudien erhalten werden, erfolgen. Demnach wären alle Werte, die nicht im Konfidenzintervall liegen, als OOT-Ergebnisse anzusehen und entsprechende Maßnahmen zu ergreifen.