Operationscharakteristik als Trennschärfe
Ohne Frames
Irrtumswahrscheinlichkeit in Abhängigkeit der Basisrate, Prävalenz

Operationscharakteristik ist die Kennlinie der Trennschärfe von Tests. Der selbe Sachverhalt wird in der klinischen Forschung mit ROC, Receiver Operating Characteristic, bezeichnet.


zurück zum Glossar (Operationscharakteristik)

 

Operationscharakteristik 

 

Trennschärfekennlinie für statistische Tests.  

Die Irrtumswahrscheinlichkeit des Tests wird in Abhängigkeit von der Prävalenz aufgetragen. 

Bei industriellen Stichprobensystemen die Wahrscheinlichkeit der Annahme eines Loses in Abhängigkeit von seinem tatsächlichen (unbekannten) Fehleranteil, bei gegebener Stichprobenanweisung.

Ein ähnlicher Sachverhalt  wird in der klinischen Forschung durch die ROC, Receiver Operating Characteristic, wiedergespiegelt.

 

1.) Diskrete Verteilungsfunktionen 

Die Operationscharakteristiken bei diskreten Verteilungsfunktionen (Binomialverteilung, Hypergeometrische Verteilung, Poissonverteilung) lassen sich nicht geschlossen angeben. Man muss jeden Punkt der Operationscharakteristik als Summe einzelner Werte der Dichtefunktionen berechnen. 

 

Beispiel (Stichprobensystem)  Binomialverteilung

Ein Los soll gerade noch als "Gut" betrachtet werden, wenn unter 50 untersuchten Teilen maximal 1 Schlechtes dabei ist (50-1). 

Der "wahre" (aber unbekannte) Ausschussanteil des Loses sei p=1%.

Die Binomialverteilung F(x) und ihre Dichtefunktion f(x) haben folgende Form:

Binomialverteilung

Hier ist n=50 und p=1%.

Die Wahrscheinlichkeit, mit der gegebenen Stichprobenanweisung (50-1) das Los anzunehmen (also nicht mehr als 1 Fehler zu finden) 

beträgt f(0) + f(1). 

Rechnet man dies für den gesamten  Bereich von p (also von 0 bis 100%) durch (und trägt es graphisch über p auf), so erhält man die Operationscharakteristik.

 

Für die Visualisierung der Operationscharakteristik unter Binomialverteilung mit Excel siehe hier.

Für die Berechnung der Operationscharakteristik des sequentiellen Binomialtests siehe hier.

 

 

2.) Kontinuierliche Verteilungsfunktionen

Auch bei kontiniuerlichen Verteilungsfunktionen lassen sich die Operationscharakteristiken nicht geschlossen angeben. 

Man muss Punkt für Punkt berechnen.

 

Beispiel 

 

a) Normalverteilung 

 

Eine Grundgesamtheit sei normalverteilt mit Mittelwert µ =2 und Standardabweichung s =1. 

Das Los soll gerade noch als "Gut" betrachtet werden, wenn der Stichprobenmittelwert µ  nicht grösser als 3 und nicht kleiner als 1 ist. Es sollen 5 Teile überprüft werden. 

Man nehme nun beispielsweise an, es kommt ein Los mit den "wahren" (aber unbekannten) Parametern µwahr=4 und s=1

Die entscheidende Frage lautet also: 

Wie wahrscheinlich ist es, aus einer normalverteilten Grundgesamtheit mit µwahr=4 und s =1 bei einer Stichprobe vom Umfang 5 einen Mittelwert grösser als µ=3 zu messen?

(Die Wahrscheinlichkeit, dass man µ kleiner als 1 misst sei vernachlässigt) 

Mit der Dichtefunktion der Normalverteilung f(x)

Normalverteilung Dichtefunktion

ergibt sich für die Wahrscheinlichkeit p der oben gestellten Frage mit s =1 und n=5: 

 

.  

Mit der Excelfunktion NORMVERT(3;4;1/Wurzel(5),wahr) ergibt sich der Zahlenwert  1,27%. 

Also: Mit fast 99% Sicherheit wird ein Los mit "wahrem" Mittelwert von 4 durch eine Stichprobe vom Umfang 5 entdeckt. 

 

Schliesslich sei noch die Frage beantwortet: 

Wie wahrscheinlich ist es, aus einer normalverteilten Grundgesamtheit mit µwahr=2 und Sigma=1 bei einer Stichprobe vom Umfang 5 einen Mittelwert grösser als µ=3 zu messen?

Wie wahrscheinlich ist es also, ein "optimales" Los zu unrecht zurückzuweisen?

 

Mit der Excelfunktion 1-NORMVERT(3;2;1/Wurzel(5),wahr) ergibt sich wieder der Zahlenwert  1,27%. 

 

b) Exponentialverteilung 

 

Obwohl die Exponentialverteilung kontinuierlich ist, läuft die Ermittlung der Operationscharakteristik unter realen Bedingungen auf das Abzählen einzelner Werte der Dichtefunktion der Poissonverteilung hinaus.

 

Eine Grundgesamtheit sei exponentialverteilt mit dem "wahren" (aber unbekannten) Mittelwert µw=4. 

Ein Mittelwert von 3 wird gerade noch als "Gut" betrachtet.

 

Hier lautet die entscheidende Frage zum Beispiel: 

Wie wahrscheinlich ist es, aus einer exponentialverteilten Grundgesamtheit mit der "wahren"Ausfallrate lwahr =4

per Stichprobe eine Ausfallrate von mehr als 5 zu ermitteln?

 

Um vernünftige Zahlen zu bekommen, muss man zuerst eine Testdauer festlegen, die mit hoher Wahrscheinlichkeit mehrere Ausfälle produzieren wird. 

Diese Exceldatei enthält Daten für die Testdauern 10 und 20. 

Aus den Daten ist zu entnehmen: 

  1. Testdauer = 10, Prüfvorschrift = "Maximal 48 Ausfälle erlaubt". 

  2. Testdauer = 20, Prüfvorschrift = "Maximal 92 Ausfälle erlaubt". 


Wenn über die "wahre" Ausfallrate nichts bekannt ist, dann geht der Rechengang deutlich anders: 

 

Ohne Herleitung sei hier erwähnt, dass bei exponentialverteilten Ausfallraten gilt: 

MTBF Konfidenz, bzw.

                (Für eine Herleitungsskizze siehe hier)

Also:

Die doppelte gesamte Testdauer geteilt durch die Mittlere Zeit zwischen 2 Ausfällen (MTBF)  ist Chi Quadrat verteilt mit 2n Freiheitsgraden. n ist die Anzahl festgestellter Ausfälle. 

[Anmerkung: (n+1) gilt bei zeitbegrenztem Testen. Bricht man den Test geplant nach dem n-ten Ausfall ab (fehlerbegrenztes Testen), dann gilt n statt (n+1)]

 

In Anlehnung an obiges Beispiel 2 testen wir wieder  = 20 Einheiten lang und stellen dabei  z.B. 90 Ausfälle fest.

Der Schätzwert für die Ausfallrate liegt also bei 4,5. 

Bei genau 90 Fehlern beträgt die Wahrscheinlichkeit, dass die Ausfallrate nicht gröser ist als 5 nach einsetzen in obige Formel:

Man Beachte, dass a die gesuchte Grösse ist.

Mit der Excelfunktion CHIVERT(2*20*5;2*91) ergibt sich der Zahlenwert 17,14%. 

Mit 17,14% Wahrscheinlichkeit ist also die "wahre" Ausfallrate nicht schlechter als 5, wenn man bei 20 Zeiteinheiten 90 Fehler gefunden hat.

 

zurück zum Glossar (Operationscharakteristik)

28.08.2005

Datenschutzhinweise