Was ist eigentlich ein Konfidenzintervall?

Geschrieben von Dr. Eva Arnold Veröffentlicht in Methodenvalidierung

Bei der Herstellung eines Arzneimittels sind die Kontrollen mandatorisch. Hier kommt man schnell auf ein Problem: Um den Endverbraucher zu schützen, möchte man keine Fehler in einem Produktionsschritt übersehen. Andererseits ist eine 100% Kontrolle in einigen Produktionsschritten nicht möglich. So kann man beispielsweise nicht jede einzeln verpackte Tablette wieder auspacken und auf ihre Beschaffenheit untersuchen, nur um sicher zu sein, dass kein Fehler übersehen wurde.

Aus diesem Grund nimmt man eine Stichprobe, das heißt man entscheidet sich für eine gewisse Menge an Tabletten pro Charge, um diese auf Fehler zu untersuchen. Anschließend muss von dieser Stichprobe ausgehend eine Schätzung abgegeben werden, die sich auf die gesamte Charge bezieht. Hier kommt das sogenannte Konfidenzintervall (oder auch Vertrauensintervall oder Vertrauensbereich) ins Spiel.

So werden bei In-Prozess-Kontrollen (IPKs) ermittelte Werte mit einem zuvor definierten Soll-Wert verglichen. Wenn man davon ausgeht, dass die Produktion diesen Wert sehr genau einhält, schwanken also die echten Werte in einer Normalverteilung um diesen Soll-Wert. Einfach gesagt: Eine Tablette soll 400 Milligramm eines Wirkstoffs enthalten. Die produzierten Tabletten enthalten selten exakt 400 Milligramm, sondern schwanken beispielsweise zwischen 390 und 410 Milligramm. Da der Produzent natürlich bemüht ist, den Sollwert von 400 Milligramm einzuhalten, kommen die meisten Tabletten sehr nah an die 400 Milligramm heran, beispielsweise enthalten die meisten Tabletten zwischen 395 und 405 Milligramm. Würde man eine komplette Tablettencharge und die jeweiligen Gewichte des Wirkstoffs gegeneinander auftragen, würde man eine klassische Normalverteilung erhalten. Daraus lässt sich auch der „echte“ Mittelwert, der sogenannte Erwartungswert µ, bestimmen. Als Qualitätsmerkmal haben wir in der Spezifikation festgelegt, dass dieser „echte“ Mittelwert zwischen 395 und 405 Milligramm liegen soll.

Wie oben bereits erwähnt, können wir nicht jede einzelne Tablette untersuchen. Daher bleibt dieser Erwartungswert für uns unbekannt. Da wir dennoch wissen wollen, ob die aktuelle Tablettencharge dem Soll-Wert des Wirkstoffgehalts entspricht, ziehen wir also eine Stichprobe von beispielsweise 100 Tabletten und analysieren diese. Mit sehr hoher Wahrscheinlichkeit unterscheidet sich der Mittelwert der Stichprobe vom „echten“ Mittelwert. Andersherum gesagt: Es ist sehr unwahrscheinlich, mit einem Stichprobenmittel auf exakt den Erwartungswert zu kommen, den man haben möchte. Nun stehen wir vor dem folgenden Problem: Unser Stichprobenmittelwert ist nur eine Schätzung, und den „echten“ Mittelwert können wir nie und nimmer bestimmen, ohne unsere ganze Charge zu zerstören.

Um dieses Problem zu umgehen, legen wir einen Bereich fest, in dem dieser „echte“ Mittelwert zu vermuten ist. Dieser Bereich wird Konfidenzintervall genannt. Je größer dieser Bereich ist, desto wahrscheinlicher enthält dieser auch den „echten“ Mittelwert. Nun könnte man meinen, es sei von Vorteil, ein möglichst breites Konfidenzintervall zu bestimmen, damit der „echte“ Mittelwert immer enthalten ist. Je größer das Konfidenzintervall ist, desto schlechter ist jedoch die Präzision der Schätzung. Entsprechend wollen wir also ein möglichst schmales Konfidenzintervall. Damit kommen wir zu einem weiteren Problem: Bei einer zufällig gezogenen Stichprobe können auch Ausreißer dabei sein, die sich bei der oben genannten Normalverteilung zum Beispiel am äußeren Rand der Wirkstoffmenge befinden. Diese Ausreißer enthalten selbst mit dem Konfidenzintervall nicht den „echten“ Mittelwert. Die Wahrscheinlichkeit, solche Ausreißer in der Stichprobe zu haben, ist zwar entsprechend gering, aber nicht unmöglich. Um diese Wahrscheinlichkeit miteinzubeziehen, legt man ein sogenanntes Konfidenzniveau (auch Vertrauensniveau genannt) fest. Nehmen wir ein Konfidenzniveau von 95% an, so bedeutet dies, dass 95% der Stichprobenwerte mit Konfidenzintervall den „echten“ Mittelwert enthalten. Damit dürfen 5% der Werte Ausreißer sein.

Doch wie legt man das Konfidenzintervall / Vertrauensintervall fest? Die Breite des Konfidenzintervalls hängt von der Standardabweichung (σ) der Stichprobe und dem gewählten Konfidenzniveau ab. Die Wahl des Konfidenzniveaus ist einem selbst überlassen. In der Pharmabranche wird üblicherweise als Konfidenzniveau 95% verwendet. Das gewählte Konfidenzniveau wird verwendet, um den kritischen z-Wert mit Hilfe einer Normalverteilungstabelle zu ermitteln. Für ein Konfidenzniveau von 95% ergibt das einen z-Wert von 1,96. Mit diesem z-Wert, der Standardabweichung (σ) der Stichprobe und der Stichprobengröße (n) lässt sich das Konfidenzintervall (KI) für den "wahren" Wert µ gemäß folgender Formel bestimmen:

KI für µ = x ± z * σ / √(n)

Nehmen wir an, wir haben 100 Tabletten analysiert und kommen auf einen Mittelwert (x) von 398,8 Milligramm und eine Standardabweichung von 12,4 Milligramm. Unsere Vertrauensgrenzen für unser Konfidenzintervall berechnen sich damit:

µ = x ± 1,96 * σ / √(n) = 398,8 mg ± 1,96 * 12,4 mg / √(100) = 398,8 mg ± 2,43 mg

Das heißt, der „echte“ Mittelwert µ liegt im Konfidenzintervall [396,4; 401,2] und wäre damit innerhalb unserer Spezifikation (zwischen 395 und 405 mg).

Je größer die Standardabweichung, also die Variation innerhalb unserer Stichprobe ist, desto breiter ist unser Konfidenzintervall. Hieraus ergibt sich auch, weshalb ein breites Konfidenzintervall ein Zeichen für eine schlechte Schätzung darstellt. Gleichzeitig lässt sich unser Konfidenzintervall verkleinern, indem wir unsere Stichprobengröße (n) erhöhen. Wenn wir unsere Stichprobe erhöhen, reduzieren wir gleichzeitig auch unsere Streuung und damit Standardabweichung, da wir, je mehr Tabletten wir analysieren, der „echten“ Normalverteilung immer näherkommen. Würden wir beispielsweise nur 10 Tabletten untersuchen, kämen wir bei gleichem Mittelwert und gleicher Standardabweichung auf Vertrauensgrenzen von 7,8, womit unsere Schätzung mit dem Konfidenzintervall [391,0; 406,6] nicht mehr der Spezifikation entspricht und die Charge nicht freigegeben werden kann.

Stellen wir also abschließend fest: Je größer die Stichprobe (n) gewählt ist, desto schmaller ist das Konfidenzintervall / Vertrauensintervall und desto präziser ist unsere Schätzung. Die Wahl der Stichprobe ist also maßgeblich für die Vertrauenswürdigkeit einer Kontrolle eines Herstellungsprozesses – wohingegen die Anzahl der Stichproben weniger ausschlaggebend ist. Nehmen wir also unser Tablettenbeispiel: Wenn wir pro Charge 10 Stichproben à 10 Tabletten nehmen, ist unsere Schätzung weniger präzise, als wenn wir 1 Stichprobe à 100 Tabletten nehmen, obwohl dieselbe Menge Tabletten, nämlich 100 Stück, „geopfert“ werden musste.

Um den Bogen zur Methodenvalidierung zu spannen, soll abschließend erwähnt werden, dass auch hierfür die Kenntnis der Berechnung von Konfidenzintervallen notwendig ist, da die Angabe von Konfidenzintervallen von der ICH Q2(R1) Guideline sowohl für den Parameter Richtigkeit als auch für alle Arten der Präzision empfohlen wird. Wie sinnvoll das jedoch ist und welche anderen Anwendungsmöglichkeiten es im Bereich der Methodenvalidierung für Konfidenzintervalle gibt, darüber gibt dieser Blogbeitrag Auskunft. 

Aber apropos Anwendungsmöglichkeiten… Konfidenzintervalle können nicht nur um einen Wert, sondern auch um einen Verlauf, herum gelegt werden. Dies macht z.B. bei Stabilitätsstudien zur Festlegung der Haltbarkeit der Tabletten vor deren Vermarktung Sinn. Dazu verfolgen wir zu festgelegten Zeitpunkten mit stabilitätsanzeigenden Methoden z.B. den Gehalt der Tabletten bei einer bestimmten Anzahl an Chargen (z.B. 3) und vergleichen ihn mit den Vorgaben der Spezifikation. Wenn wir den Gehalt auf der y-Achse gegen die Zeit in Monaten auf der x-Achse auftragen, werden wir feststellen, dass der Gehalt im Laufe der Zeit wahrscheinlich immer ein wenig weiter abnehmen wird. Auch wenn wir die Datenpunkte aus den Mittelwerten der 3 untersuchten Chargen gebildet haben, so ist unser untersuchter Verlauf doch nur eine kleine Stichprobe und bei der Untersuchung einer größeren Stichprobe (also vielen weiteren Chargen) wären auch stärker abfallende Verläufe denkbar. Um daher mit einer gewählten Wahrscheinlichkeit (à s.o. Konfidenzniveau) alle möglichen Verläufe abzubilden, spannen wir zu einem bestimmten Zeitpunkt ein Konfidenzintervall um die abnehmende Regressionsgerade unser Datenpunkte herum und zeigen damit den wahren Stabilitätsverlauf. Der Zeitpunkt, an dem sich die untere Grenze des Konfidenzintervalls mit der unteren Spezifikationsgrenze für den Gehalt schneidet, ist die maximale Haltbarkeit.

Anschließend könnte das um die in der Zulassung eingereichten Stabilitätsdaten herumgelegte Konfidenzintervall auch als Eingriffsgrenzen für out-of-trend (OOT) Ergebnisse genutzt werden. Dies könnte im Rahmen eines Trendings für Resultate, die im Zuge fortlaufender Stabilitätsstudien erhalten werden, erfolgen. Demnach wären alle Werte, die nicht im Konfidenzintervall liegen, als OOT-Ergebnisse anzusehen und entsprechende Maßnahmen zu ergreifen.