Risikoanalyse-Tools: Fehlerbaumanalyse (FTA)

Geschrieben von Dr. Janet Thode Veröffentlicht in ISO 13485

Im GMP- wie auch Medizinproduktebereich gehört Risikomanagement zu den zentralen Gedanken. Entsprechend ist es wichtig, Risikoanalyse-Tools (siehe entsprechenden Blogartikel) zu kennen. Sowohl von der ICH Q9 Guideline als auch von der ISO 14971 wird in diesem Zusammenhang u.a. die Fehlerbaumanalyse (Fault Tree Analysis, FTA) genannt. Die genaue Vorgehensweise ist detailliert in der IEC 61025 beschrieben. Mit einer Fehlerbaumanalyse können die Komponenten eines Systems auf ihre Beteiligung an einem möglichen Ausfall des Gesamtsystems untersucht werden.

Sie eignet sich, um ausgehend von einem unerwünschten definierten Top-Ereignis rückwärts gerichtet dessen Ursachen zu ermitteln (= Top-down-Ansatz). In deduktiver Weise – man geht vom Allgemeinen zum Speziellen – wird ausgehend von dem Top-Ereignis auf jeder Ebene des Funktionssystems eine mögliche Beteiligung jeder Einzelkomponente geprüft. Dabei entsteht eine baumartige Struktur der Fehlermöglichkeiten. Dadurch, dass auf jeder Ebene des Fehlerbaums mit logischen Operatoren (UND, ODER usw.) die jeweiligen Einzelbeteiligungen abgeprüft werden, werden Kombinationen aufgedeckt, die am wahrscheinlichsten zum Eintritt des unerwünschten Ereignisses führen. Durch solche Kausalketten werden Einzelereignisse aber insbesondere auch das Zusammenspiel verschiedener multipler Ursachen als Gründe für das Auftreten des unerwünschten Top-Ereignisses deutlich. Wenn man weiß, mit welcher (Ausfall-) Wahrscheinlichkeit die Einzelkomponenten zum Eintritt des unerwünschten Top-Ereignisses beitragen, kann mit einer Fehlerbaumanalyse sowohl die Eintrittswahrscheinlichkeit für verschiedene Ausfallkombinationen als auch die für das Eintreten des Top-Ereignisses ermittelt werden. Entsprechend ist sowohl eine rein quantitative als auch bei bekannten Wahrscheinlichkeiten eine qualitative Analyse möglich.

Zusammengefasst lässt sich bis hierher festhalten, dass eine FTA

  • hilft, Ursachen zu verstehen
  • aufzeigt, wie stark einzelne Komponenten für verschiedenen Ursachen entscheidend sind und welche Kausalzusammenhänge der Ursachen bestehen (= Identifikation von Schwachstellen)
  • Aussagen über die Ausfallwahrscheinlichkeit eines Systems liefern kann.

 

Eingesetzte Symbole

Vor der Erläuterung an einem Bespiel sollten zunächst die am häufigsten eingesetzten Symbole geklärt werden. Das wären u.a. Folgende:

Ein Fehlerbaum startet immer mit dem unerwünschten Top-Ereignis, dargestellt als Rechteck. Das ist der Fehler, dessen Ursache man ergründen möchte. Mit Rechtecken werden außerdem Zwischenereignisse (Intermediate Events) dargestellt. Auslöser für Top-Ereignisse sind andere Ereignisse, die in Primärereignisse (auch als basic events bezeichnet, dargestellt als Kreis) und „nicht weiter entwickelte Ereignisse“ (undeveloped events, dargestellt als Raute) unterteilt werden können. Ein Primärereignis repräsentiert einen Bedien-Fehler oder den Ausfall einer Komponente und kann nicht weiter untergliedert werden. Damit stellt es die feinste Auflösung eines Fehlerbaumes dar und entspricht sinnbildlich einem Blatt. Unentwickelte Ereignisse werden nicht weiter aufgegliedert, obwohl möglich, da entweder keine weiteren Details bekannt sind oder eine weitere Verfeinerung z.B. aus wirtschaftlichen Gründen nicht erwünscht ist oder weil kein weiterer Erkenntnisgewinn erwartet wird. Übertragen betrachtet entsprechen sie Ästen.

Mit Transfersymbolen (nach oben bzw. unten gerichteten Dreiecken) werden (Teil)-Bäume miteinander verbunden, wenn sie auf verschiedenen Papierseiten gezeichnet / gedruckt werden. Das nach oben gerichtete In-Symbol zeigt an, dass der Inhalt des folgenden Subbaums (auf einer anderen Seite) an dieser Stelle eingebunden ist. Das nach unten gerichtete Out-Symbol hingegen befindet sich oben auf der neuen Seite und zeigt an, dass der folgende Subbaum mit dem übergeordneten Baum verbunden ist und für diesen den Input liefert. Sie helfen somit bei der Untergliederung des Baums.

Da in einem Fehlerbaum die Logik eines Systems modelliert wird, müssen logische Verknüpfungen verwendet werden. Dabei folgt jeder Zustand einer binären Logik (intakt / defekt oder wahr / falsch oder an / aus usw.). Entsprechend werden UND- oder ODER-Gatter eingesetzt, welche einer boolschen Logik gehorchen. Das bedeutet, dass beide Primärereignisse eintreten müssen, wenn sie mit einem UND-Gatter verbunden sind, damit das darüber liegende Zwischenereignis eintreten kann. Anders gesprochen, der Ausgang eines UND-Gatters ist genau dann wahr, wenn alle seine Eingänge (darunterliegende Ereignisse) wahr sind, wobei die Anzahl der Eingänge beliebig ist. Für ein ODER-Gatter bedeutet dies, dass das darüber liegende Ereignis eintritt, wenn mindestens ein darunterliegendes Eingangsereignis eingetreten ist. Ein ODER-Gatter kann ebenfalls beliebig viele Eingänge haben.

Es gibt eine Reihe weiterer Symbole (z.B. bedingte Verknüpfungen oder solche die in Abhängigkeit zu etwas stehen), die ebenfalls aber nicht so häufig angewendet werden. Der geneigte Leser sei daher auf Annex A der IEC 61025 verwiesen.

 

Die FTA an einem Beispiel

Die nachfolgende Abbildung zeigt exemplarisch die Anwendung einer FTA am abstrakten Beispiel „Suppe kochen“ (und erhebt keinen Anspruch auf Vollständigkeit). Eine Suppe als misslungen zu bezeichnen, kann zwei Hauptgründe haben: sie schmeckt nicht oder ihre Konsistenz ist nicht wie gewünscht. Diese Fehler lassen sich wiederum weiter aufschlüsseln. Dabei muss sich eingehend mit den verschiedenen Parametern beschäftigt werden, die für das Kochen einer Suppe relevant sind. So sind hier z.B. die Zeit, die Zutaten und das Equipment zu betrachten. Es wird schnell offensichtlich, dass auch bei einem so einfachen Beispiel wie einer misslungenen Suppe viele verschiedene Ursachen für das Eintreten der beiden Hauptursachen zu Grunde liegen können.

 

Durchführung

Die Durchführung lässt sich in 5 Schritte untergliedern:

1. Festlegung des Top-Ereignisses

In diesem Schritt wird festlegt, zu welchem Negativ-Ereignis der Fehlerbaum erstellt werden soll. Mögliche Top-Ereignisse können zuvor z.B. mit einer „Failure mode and effects analysis“ (FMEA) ermittelt worden sein. Die Auswahl ist nicht unbedingt einfach, da bei einem zu allgemeinen Top-Ereignis die FTA sehr schnell zu komplex und eine richtige Auflösung schwierig wird. Bei einem zu speziellen Ereignis können andere wichtige Fehlerquellen übersehen werden. Zudem ist zu bedenken, dass für jeden unerwünschten Zustand ein eigener Fehlerbaum erstellt werden muss.

2. Beschreibung der Randbedingungen

Nachdem im ersten Schritt das zu untersuchende Top-Ereignis definiert wurde, sind anschließend die Randbedingungen und Systemgrenzen festzulegen. Dabei wird die Anfangskonfiguration des Systems beschrieben, d.h. alle Komponenten im fehlerfreien Normalzustand. Folgende Fragen sollte man sich dabei stellen:

  • Welche Schnittstellen existieren?
  • Was sind Hilfs- und Unterstützungssysteme?
  • Was sind unerlaubte Ereignisse, die nicht mit betrachtet werden sollen (z.B. kann eine fehlerhafte Verkabelung zwar zum Versagen des Systems führen, ist aber nicht Teil des Normalzustandes)?
  • Wie ist die Auslastung der Komponenten (z.B. 80 % oder 100 %)?
  • Bis zu welcher Stufe möchte ich die Fehlerbaumanalyse betreiben / welchen Verfeinerungsgrad erachte ich als notwendig? Wie viel Aufwand möchte ich betreiben?

Ein kurzes Beispiel zur Erläuterung. Als Top-Ereignis wird diesmal die Überladung eines Krans untersucht (das obige Beispiel der Suppe passt hier nicht so gut). Bei der Beschreibung der Randbedingungen sollte u.a. dargelegt werden, ob der Kran das Gewicht hebt oder senkt und ob er stillsteht oder sich dreht.

3. Konstruktion des Fehlerbaums

Für die Konstruktion des Fehlerbaums geht man deduktiv vom Top-Ereignis aus und ermittelt alle Ausfallgründe und deren logische Verbindung. Es werden alle Ereigniskombinationen und zugehörigen Primärereignisse identifiziert, die zum Top-Ereignis führen. Dafür ist eine intensive Beschäftigung mit dem System und seinen Wirkzusammenhängen erforderlich. Anders ausgedrückt: Ganz oben wird das TOP-Ereignis gezeichnet. Eine Ebene darunter folgen alle Ursachen, die alleine oder in Kombination das Top-Ereignis auslösen. Diese Ebene ist mit dem Top-Ereignis durch logische Verbindungsgatter verknüpft. So wird immer weiter vorgegangen, bis die Blätter nur noch aus nicht weiter aufzuschlüsselnden Primärereignissen bestehen. Schematisch sieht das so aus:

4. Qualitative Analyse

In diesem Schritt werden noch keine Wahrscheinlichkeiten zugeordnet, sondern erstmal nur die kausalen Zusammenhänge im System betrachtet. Welche Komponenten sind besonders kritisch? Dafür schaut man sich die Beziehungen untereinander an. Von besonderem Interesse sind:

  • Single Point Failure: Darunter wird eine besonders kritische Komponente verstanden. Wenn sie ausfällt, tritt das Top-Ereignis ein.
  • Cut Sets: Das sind Kombinationen von Komponenten, die alle gemeinsam ausfallen müssen, damit es zum Eintritt des Top-Ereignisses kommt.
  • Minimal Cut Sets: Bei diesen Cut Sets aus möglichst wenigen Komponenten sind alle einzelnen Komponenten kritisch und bereits der Ausfall einer ist ausreichend für den Gesamtausfall.

5. Quantitative Analyse

In diesem Schritt werden jedem Primärereignis und jedem nicht weiter entwickelten Ereignis Wahrscheinlichkeiten für ihren Ausfall zugewiesen. Eine große Schwierigkeit hierbei ist oft ein allgemeiner Datenmangel. Wenn jedoch die Einzelwahrscheinlichkeiten bekannt sind, können die Eintrittswahrscheinlichkeiten von Verzweigungen sowie die Gesamtwahrscheinlichkeit für den Eintritt des Top-Ereignis berechnet werden. Dabei werden für die Berechnung der Wahrscheinlichkeit (PE) für das Eintreten des Ereignis E die Gesetze für Schnittmenge und Vereinigung gemäß folgender Formeln verwendet:

  • Bei einer UND-Verknüpfung: PE = P(A∩B) = PA ● PB
  • Bei einer ODER-Verknüpfung: PE = P(A∪B) = PA + PB - PA ● PB

Dies kann bei einfachen Systemen (wenn jedes Primärereignis nur einmal im Fehlerbaum vorkommt und dieser überschaubar ist) angewandt werden. Bei komplexen Systemen ist der Einsatz spezieller Software nötig.

 

Anwendungsmöglichkeiten

Die Anwendungsmöglichkeiten einer FTA sind vielfältig. Nachfolgend werden zwei Einsatzszenarien kurz vorgestellt: Bei Reklamationen oder Abweichungen kann eine FTA gut zur Root Cause Analyse angewandt werden, insbesondere um zu gewährleisten, dass die beabsichtigten Verbesserungsmaßnahmen den Grund für das Problem vollständig beheben und nicht zu neuen Problemen führen. Zum anderen eignet sie sich während der Entwicklung als Designhilfe, um schon frühzeitig diejenigen Komponenten zu identifizieren, die einen großen Anteil zum Gesamtausfallrisiko beitragen und ermöglicht so gegebenenfalls ein Redesign des Produkts hin zu einer größeren Sicherheit.

 

Vor und Nachteile

Vorteile

  • Die bildliche Darstellung ermöglicht ein schnelles Verständnis des Systemverhaltens / bzw. der Abläufe, die zu einem bestimmten Systemausfall / Fehler führen können. Durch die logischen Verknüpfungen wird deutlich, dass für einen Fehler viele Ursachen verantwortlich sein können.
  • Da die Bäume modular aufgebaut sind, kann eine Bearbeitung durch verschiedene Teams erfolgen, die jeweils für ein Subsystem verantwortlich sind.
  • Sie liefert idealerweise qualitative und bei ausreichender Datenbasis quantitative Aussagen über die Ausfallwahrscheinlichkeit.
  • Es werden Anhaltspunkte geliefert, welche Komponenten zur Minimierung der Gefahr eines Systemausfalls optimiert oder neu entwickelt werden müssen.
  • Sie ist vielfältig einsetzbar insbesondere für duale Vorgänge und kann auch zur Systemoptimierung verwendet werden.

Nachteile

  • Das Top Ereignis muss vorgegeben werden oder zuvor mit anderen Verfahren ermittelt worden sein. Entsprechend können Fehler, die bis jetzt noch nicht bekannt sind, nicht mitbetrachtet werden.
  • Pro Top-Ereignis muss ein eigener Fehlerbaum konstruiert werden. Dies ist zeit- und ressourcenintensiv.
  • Da die Systembeschreibung einen festen Zeitpunkt beschreibt und somit statisch ist, sind dynamische Änderungen (z.B.: Was bedeutet es für C, wenn nach A auch B ausfällt?) mit der Grundform nicht zu modellieren.
  • Es wird Experten-Prozessverständnis gebraucht, da eine detaillierte Kenntnis der Funktionsweise des Systems notwendig ist. Es muss bekannt sein, wie die Komponenten im System zusammenarbeiten, damit die richtigen Logik-Gatter angewendet werden können.
  • Wenn die Fehlerbäume zu groß werden, ist für deren Bearbeitung Computersoftware notwendig und die Bäume haben unübersichtlich viele Verzweigungen. Zudem empfiehlt sich zur grafischen Darstellung die Verwendung spezieller Software wie beispielsweise MS Visio.
  • Mit einer FTA können keine neuen Gefahren / Fehler aufgedeckt werden, es wird nur ein fester Zeitpunkt repräsentiert.
  • Es ist nicht möglich mit einer FTA Komponenten mit mehr als 2 Zuständen (ausschließlich funktionstüchtig versus defekt) zu modellieren.
  • Zur Berechnung der Gesamteintrittswahrscheinlichkeit für das Top-Ereignis müssen die Ausfallwahrscheinlichkeiten der Primärereignisse bekannt sein.
  • Die Ermittlung der einzelnen Eintrittswahrscheinlichkeiten ist z.T. schwierig und mit Unsicherheiten behaftet.