. Dieser Satz, auf den wir nicht näher eingehen werden, besagt,
dass die Summe bzw. die arithmetischen Mittel von unabhängigen Zufallsvariablen zumindest
approximiert normalverteilt sind.
Die Graphik einer Normalverteilung ist die aus Teil 3 bekannte Glockenkurve (Abb. 4).
Wir haben dort empirische Daten (Gewichte von Hühnereiern) mit der Glockenkurve verglichen.
Wir wollen hier an einem Beispiel zeigen, wie die Kurve zustande kommt. In ihrer idealen,
symmetrischen Form werden wir sie bei empirischen Daten nicht vorfinden. Je mehr Daten
vorliegen, um so besser nähert sich die Kurve empirischer Daten aber der idealen Kurve.
Beispiel 5
Durchmesser menschlicher Erythrozyten
An einem gefärbten Blutausstrich haben wir bei 300 Erythrozyten den Durchmesser in µm
gemessen. Durch systematische Auswahl der vermessenen Zellen wurden
Doppelmessungen vermieden. Wir gehen davon aus, dass der Erythrozytendurchmesser
eine Zufallsvariable ist, deren Messergebnisse zur Protokollierung auf 0,25 µm gekörnt
wurden.
Aus den Messergebnissen
| µm |
5,00 |
5,25 |
5,50 |
5,75 |
6,00 |
6,25 |
6,50 |
| H |
1 |
0 |
2 |
2 |
3 |
4 |
10 |
H = absolute Häufigkeit
| µm |
6,75 |
7,00 |
7,25 |
7,50 |
7,75 |
8,00 |
8,25 |
| H |
15 |
25 |
35 |
40 |
45 |
40 |
25 |
H = absolute Häufigkeit
| µm |
8,50 |
8,75 |
9,00 |
9,25 |
9,50 |
9,75 |
10,00 |
| H |
20 |
16 |
10 |
0 |
4 |
2 |
1 |
haben wir die Kennwerte berechnet, diese sind gerundet:
= 7,69 µm und sx = 0,77 µm.
Die Messwerte der Stichprobe ergeben das Bild von Abb. 5. Danach liegt das Maximum etwa
in der Mitte des ranges. Extremwerte kommen um so seltener vor, je extremer sie sind.
Die Kurve kommt also der Glockenkurve recht nahe. Wir folgern daraus, dass die
Daten approximiert einer Normalverteilung entsprechen.
Mit Hilfe der
können wir berechnen, wie die ideale Glockenkurve für die
Erythrozytendurchmesser der Stichprobe aussieht.
Notationen:
f(x) = y = Wahrscheinlichkeitsdichte
s = Parameter der Standardabweichung
m = Parameter des arithmetischen Mittels
p = 3,1416
e = Eulersche Zahl 2,7182
Die in die Gleichung einzusetzenden Parameter µ und
s stehen nicht zur Verfügung,
da wir ja nur eine Stichprobe untersucht haben. Wir betrachten den Stichprobenumfang von
n = 300 aber als so groß, dass die Kennwerte
und sx hinreichend gute Repräsentanten
für deren Parameter sind und somit an deren Stelle in der Rechnung verwendet werden dürfen.
p und e sind Konstanten und daher
ist der Verlauf der Verteilung bzw. die Form der Kurve
ausschließlich von den beiden Parametern µ und s
abhängig. Die Normalverteilung wird daher
mit dem Ausdruck N(µ,s) gekennzeichnet.
Wir wollen nun zeigen, wie die Normalverteilungskurve für die Erythrozytendurchmesser
mit den Werten
(µ) = 7,69 µm und sx(s) = 0,77 µm berechnet wird.
Wir werden dazu für jeden der 21 Messwerte berechnen, wie groß die Wahrscheinlichkeitsdichte
für ihr Auftreten ist, also jeweils deren f(x)-Wert. Beispielhaft folgt hier die Berechnung von
f(x) für x = 6,00 µm.
Da die Rechnung relativ zeitaufwendig ist, haben wir für alle x im geschlossenen Intervall [5;10]
über die Excelfunktion NORMVERT die f(x)-Werte berechnet. Wer möchte, der kann die Berechnung
nach Eingabe der obigen Formel über die Tastatur ausführen. Vorsicht, die Formeleingabe
ist fehlerträchtig.
Die mit NORMVERT berechneten Werte sind auf fünf Nachkommastellen gerundet.
(In die Eingabemaske von NORMVERT muss bei „kumuliert“ eine 0 eingegeben werden.)
| µm |
5,00 |
5,25 |
5,50 |
5,75 |
6,00 |
6,25 |
6,50 |
| f(x) |
0,00116 |
0,00342 |
0,00908 |
0,02168 |
0,04660 |
0,09015 |
0,15696 |
| µm |
6,75 |
7,00 |
7,25 |
7,50 |
7,75 |
8,00 |
8,25 |
| f(x) |
0,24593 |
0,34678 |
0,44006 |
0,50257 |
0,51654 |
0,47777 |
0,39771 |
| µm |
8,50 |
8,75 |
9,00 |
9,25 |
9,50 |
9,75 |
10,00 |
| f(x) |
0,29794 |
0,20087 |
0,12187 |
0,06655 |
0,03270 |
0 ,01446 |
0,00576 |
Die Graphik der Wahrscheinlichkeitsdichte ist die folgende Glockenkurve (Abb. 6).
Typische Eigenschaften der Glockenkurve
Die Abb. 6 zeigt die berechnete Wahrscheinlichkeitsverteilung für die Parameter µ = 7,69 und s = 0,77.
Wir können der Kurve die typischen Eigenschaften der Normalverteilung entnehmen. (Siehe auch Teil 3.)
- Die Graphik ist symmetrisch und glockenförmig.
- Sie ist monomodal.
- Die Funktionswerte f(x) nähern sich der Abszisse beidseitig asymptotisch. Das bedeutet, Extremwerte
kommen um so seltener vor, je extremer sie sind.
- Der Erwartungswert = µ liegt unter f(x)max in der Symmetrieachse. Das Lot von f(x)max
der Kurve zeigt auf der Abszisse das arithmetisches Mittel, den Modalwert und den Medianwert an. Diese drei Werte
sind bei einer Normalverteilung identisch.
- Die Grenzen der Standardabweichung liegen auf der Abszisse bei
± s. Diese Punkte entsprechen den
beiden Wendepunkten (~0,6 * f(x)max).
- Normalverteilte Variable sind charakterisiert durch N(µ;s).
Zu den speziellen Eigenschaften der Normalverteilung gehört der Zusammenhang zwischen
den Streubereichen (
± sx) und dem Flächenanteil
unter der Kurve (Abb. 7). Wir wollen daher die Grenzen des einfachen, doppelten und
dreifachen Streubereichs, die wir auch deren Schranken nennen, berechnen.
Einfacher Streubereich :
± 1*sx = 7,69 ± 1 * 0,77 = 6,92 bis 8,46
Doppelter Streubereich :
± 2*sx = 7,69 ± 2 * 0,77 = 6,15 bis 9,23
Dreifacher Streubereich :
± 3*sx = 7,69 ± 3 * 0,77 = 5,38 bis 10,00
Wenn wir auf der Abszisse einer Normalverteilungskurve µ und die Streubereichsgrenzen eintragen
und dann über diesen Punkten die Lote errichten, dann entstehen abgegrenzte Bereiche unter der Kurve.
Würden wir die Flächen dieser Bereiche ausmessen oder berechnen, dann würden wir folgendes finden:
Die Flächen links und rechts von der Symmetrieachse entsprechen jeweils 50 % der Gesamtfläche
unter der Kurve (Abb.8).
Innerhalb der Schranken des einfachen Streubereichs, also im Bereich
± 1*sx liegen
rund 68,3 % der Gesamtfläche unter der Kurve (Abb.9).
Innerhalb der Schranken von
± 2*sx liegen rund 95,5 % der Gesamtfläche
unter der Kurve (Abb.10).
Innerhalb der Schranken von
± 3*sx liegen rund 99,7 % der Gesamtfläche
unter der Kurve (Abb.11).
Die genannten Flächenanteile der Streubereiche gelten für alle N(µ;s),
unabhängig davon, welche Werte µ und s annehmen.
Die Gesamtfläche unter der Kurve (100 %) entspricht der Wahrscheinlichkeit dafür, dass ein beliebiger Messwert
irgendwo auf der Abszisse unter der Kurve liegt, also der Wahrscheinlichkeit 1 (100 %). Die Fläche unter der Kurve
links von der Symmetrieachse entspricht 50 % der Gesamtfläche und somit beträgt die Wahrscheinlichkeit,
dass ein beliebiger Messwert links der Symmetrieachse liegt, 50 %.
Die prozentualen Flächenanteile werden also als Wahrscheinlichkeiten interpretiert.
Diese entsprechen auf der Abszisse einer Strecke, nicht einem Punkt.
± 1*sx ist eine Strecke,
ein Intervall. Der Faktor für sx mag noch so klein sein, es bleibt immer eine Strecke wie z. B. bei
± 0,001*sx. Da ein Flächenanteil aber stets über einem Intervall auf der Abszisse liegt, kann auch
nur für ein Intervall eine Wahrscheinlichkeit angegeben werden, nicht für einen einzelnen Wert
auf der Abszisse. Durch unsere Kenntnis über die Streubereiche können wir nun z. B folgende Aussagen machen:
Ein beliebiger Wert der Population liegt mit ca.
68,3%iger Wahrscheinlichkeit in
± 1*sx
95,5%iger Wahrscheinlichkeit in
± 2*sx
99,7%iger Wahrscheinlichkeit in
± 3*sx
31,7%iger Wahrscheinlichkeit außerhalb
± 1*sx
4,5%iger Wahrscheinlichkeit ausßerhalb
± 2*sx
0,3%iger Wahrscheinlichkeit ausßerhalb
± 3*sx
15,8%iger Wahrscheinlichkeit unterhalb
- 1*sx
15,8%iger Wahrscheinlichkeit oberhalb
+ 1*sx
Prüfen Sie mal wie viel Prozent der 300 Messwerte innerhalb der Streugrenzen liegen.
Die dazu nötige Häufigkeitsliste finden Sie weiter vorne.
Klicken Sie hier, wenn Sie das Ergebnis
sehen möchten. Schließen Sie das auftauchende Fenster anschließend.
Alle zu den genannten drei Streubereichen gehörenden Prozentwerte sind 'krumm'. Mit 'krumm' meine
ich Zahlen wie 95,5, mit 'glatt' solche wie 95,0. Wir könnten nun fragen, wie wir zu
Streubereichen kommen können, die 'glatten' Prozentwerten entsprechen. Hier schon mal zwei Werte:
| 'krumm' |
95,5 % + 2*sx |
99,7 % + 3*sx |
| 'glatt' |
95,0 % + 1,96 *sx |
99,9 % + 3,29 *sx |
Bei der folgenden Standardisierung der Normalverteilung werden wir sehen, wie das geht.
Fast alle Werte (99,7 %) liegen bei einer Normalverteilung innerhalb der dreifachen Streugrenzen.
Nach der so genannten '3-Sigma-Regel' zählen viele Statistiker die 0,3 %, die außerhalb dieses
Bereiches an den Enden der Verteilung liegen, nicht mehr zur Grundgesamtheit sondern werten
sie als Ausreißer. Solche Werte können fälschlich z. B. durch Messfehler in die Stichprobe
geraten sein. Sie können aber auch zur Grundgesamtheit gehören. Ob ein solcher Wert, der
außerhalb der dreifachen Streuung liegt, wirklich ein Ausreißer ist, prüfen wir später
mit einem speziellen Ausreißertest.
Da in die Berechnung der Kurve nur die beiden Parameter
m
und
s
eingehen,
kann die Form der Kurve nur von diesen beiden Werten abhängen. Eine Vergrößerung
von
m
bewirkt eine Verschiebung der Kurve auf der Abszisse nach rechts.
Bei Verkleinerung von
m
rutscht sie nach links (Abb.12).
Steigt
s
, so wird die Kurve flacher
(grün:
s
= 1,8), sinkt
s
, so wird sie schmaler und höher (schwarz:
s
= 0,25;
rot:
s
= 0,77). Siehe Ann. 13.
Die Normierung hat das Ziel, Berechnungen zur Normalverteilung zu vereinfachen.
Beispiel 6
Wir wollen berechnen, mit welcher Wahrscheinlichkeit ein bestimmter X-Wert einer
Verteilung oberhalb oder unterhalb einer festgelegten Grenze oder zwischen zwei Grenzen
auf der Abszisse liegt. Folgende Daten aus Beispiel 5 sind bekannt:
range 5,0 µm bis 10,0 µm
= 7,69 µm
sx = 0,77 µm
± 1 * sx = 6,92 bis 8,46
± 2 * sx = 6,15 bis 9,23
± 3 * sx = 5,38 bis 10,00
Frage: Wie groß ist die Wahrscheinlichkeit dafür, dass ein beliebiger Erythrozyt aus der
Population einen Durchmesser von >9,0 µm hat? Wie wir wissen, entspricht die
gesuchte Wahrscheinlichkeit dem Flächenanteil unter der Kurve rechts von 9,0 µm.
Stünde statt der 9 µm die 9,23 µm in der Frage, dann wäre die Lösung einfach. 9,23 µm
entsprechen nämlich der oberen Schranke des doppelten Streubereichs. Im doppelten
Streubereich liegen 95,5 % aller Werte. Oberhalb der oberen Schranke liegt dann die
Hälfte der Differenz zu 100 %, das sind rund 2,25 %. Die Ermittlung der Fläche rechts von
9,0 µm über eine Integralrechnung ist dagegen sehr aufwendig, aber machbar.
Wollten wir die Fläche rechts von 7,4 µm wissen, dann wäre eine neue Berechnung notwendig.
Je nach Fragestellung wäre für jeden x-Wert in [5;10] eine Neuberechnung notwendig.
Auch das wäre machbar und die erhaltenen Werte könnten tabelliert werden.
Da die Flächenanteile für die Abszissenwerte jeder anderen Normalverteilung (andere Datensätze)
ebenfalls neu zu berechnen wären, müßte für jeden denkbaren Datensatz eine solche Tabelle
erstellt werden. Da das kaum praktikabel wäre wird die Normalverteiilung standardisiert.
Damit erreichen wir, dass für beliebige Datensätze die Flächen mit nur einer Tabelle,
der z-Tabelle, sehr einfach berechnet werden können. Bei der Standardisierung gehen
wir im Prinzip folgendermaßen vor. Wir verschieben die Kurve auf der Abszisse soweit
nach links, dass f(x)max über dem Koordinatenmittelpunkt (Null) steht (Abb.14).
Da, wo die Streugrenzen auf der Abszisse liegen, kennzeichnen wie diese Punkte wie folgt:
| alte Abszisse |
neue Abszisse |
| 5,38 µm - 3 s |
- 3 z |
| 6,15 µm - 2 s |
- 2 z |
| 6,93 µm - 1 s |
- 1 z |
| 7,69 µm µ |
0 |
| 8,46 µm 1 s |
1 z |
| 9,23 µm 2 s |
2 z |
| 10,00 µm 3 s |
3 z |
1 s wird zu 1 z, 2 s zu 2 z und 3 s zu 3 z, das Entsprechende gilt bei den negativen Streugrenzen.
Die so erhaltene Skala nennen wir z-Skala und die Werte z-Werte. Unsere Kurve (Abb. 14 und Abb. 15)
hat sich nicht verändert, sie ist nur auf der Abszisse so verschoben worden, dass
f(x)max. über x = 0 liegt. Und auf der Abszisse finden wir nun nicht mehr die Messwerte,
sondern die Grenzen der Streubereiche in z-Werten.
Der einfache Streubereich geht von - 1 z bis 1 z
Der zweifache Streubereich geht von - 2 z bis 2 z
Der dreifache Streubereich geht von - 3 z bis 3 z
Nun zurück zu unserer Frage:
Mit welcher Wahrscheinlichkeit ist der Durchmesser eines Erythrozyten >9 µm? Auf der z-Abszisse
gibt es den Wert 9 nicht mehr, da stehen nur z-Werte. Jetzt kommt der wesentliche Punkt:
Wir müssen den Wert 9 in einen z-Wert umrechnen.
Dies geschieht nach
Dabei ist x = 9,
= 7,69 und sx = 0,77
Es folgt also z = (9 7,69)/0,77
z = 1,7
Nur benötigen wir die schon erwähnte z-Tabelle, die z. B. über das Internet zu erreichen ist.
Auf die Frage „Wie groß ist der Flächenanteil rechts von 9 µm?“ ist nun die Frage geworden
„Wie groß ist der Flächenanteil rechts von 1,7 z?“ Aus der Tabelle können wir entnehmen,
welcher Prozentwert für z = 1,7 gilt.
Die folgende verkürzte z-Tabelle enthält nur positive z-Werte mit einer Nachkommastelle.
Erhalten wir bei Berechnungen z-Werte mit mehr Nachkommastellen, so runden wir
den Tabellenwerten entsprechend oder wir finden den P-Wert durch graphische
Interpolation in der Kurve, die der Tabelle entspricht (Abb. 18). Erhalten wir bei
der Berechnung negative z-Werte, so ignorieren wir das Minus-Zeichen. Die Tabelle
entspricht dem rechten Teil der Kurve. Da diese symmetrisch ist, entsprechen
die negativen z-Werte jeweils ihrem positiven Pendant.
Flächen (Wahrscheinlichkeiten), die zwischen z und 0 liegen
| z |
p |
z |
p |
z |
p |
z |
p |
z |
p |
z |
p |
| 0,0 |
0,0000 |
0,6 |
0,2257 |
1,2 |
0,3849 |
1,8 |
0,4641 |
2,4 |
0,4918 |
3,0 |
0,4987 |
| 0,1 |
0,0398 |
0,7 |
0,2580 |
1,3 |
0,4032 |
1,9 |
0,4713 |
2,5 |
0,4938 |
|
|
| 0,2 |
0,0793 |
0,8 |
0,2881 |
1,4 |
0,4192 |
2,0 |
0,4773 |
2,6 |
0,4953 |
|
|
| 0,3 |
0,1179 |
0,9 |
0,3159 |
1,5 |
0,4332 |
2,1 |
0,4821 |
2,7 |
0,4965 |
|
|
| 0,4 |
0,1554 |
1,0 |
0,3413 |
1,6 |
0,4452 |
2,2 |
0,4861 |
2,8 |
0,4974 |
|
|
| 0,5 |
0,1915 |
1,1 |
0,3643 |
1,7 |
0,4554 |
2,3 |
0,4893 |
2,9 |
0,4981 |
|
|
Es gibt verschiedene Tabellendarstellungen, die unterschiedliche Zahlen enthalten aber
bei richtiger Anwendung alle zum gleichen Ergebnis führen. Wichtig ist, den Tabellenaufbau
zu kennen und die Tabelle dann richtig anzuwenden.
Die vorliegende Tabelle gibt den prozentualen Anteil der Flächen an, der zwischen 0 und
einem z-Wert (zwischen 0 und 3 z) liegt. Für z = 1,7 finden wir 0,4554 = 45,54 %.
Nun müssen wir überlegen: Im negativen Bereich, links von 0, liegen 50 % der
Fläche. Von 0 bis 1,7 z liegen 45,54 %. Das bedeutet: links von z = 1,7 liegen
insgesamt 50 % + 45,54 % = 95,54 % der Gesamtfläche (Abb.17). Rechts von z = 1 liegen
demnach 100 % 95,54 % = 4,46 %. Ein kürzerer Weg: Die Fläche unter der rechten
Kurvenhälfte entspricht 50 % der Gesamtfläche. 45,54 % liegen zwischen 0 und 1,7 z.
Die Differenz ist 4,46 %. Das bedeutet: Ein beliebiger Erythrozyt hat mit 4,46%iger
Wahrscheinlichkeit einen Durchmesser von >9 µm.
Beispiel 7
Mit welcher Wahrscheinlichkeit ist der Durchmesser eines beliebigen Erythrozyten <8,5 µm?
- Umrechnen von 8,5 µm in einen z-Wert.
z = (x – µ)/s
z = (8,5 - 7,69)/0,77 = 1,05.
- Ermittlung des p-Wertes für z = 1,05:
Interpoliert über Kurve erhalten wir p = 0,354.
- Die Fläche links von 0 entspricht 50 %.
- Dazu kommen von 0 bis z = 1,05: 35,4 %.
- Links von z = 1,05 ( 8,5 µm) liegen also 85,4 % aller Erythrozytendurchmesser.
Das bedeutet: Ein beliebiger Erythrozyt hat also mit 85,4%iger Wahrscheinlichkeit
einen Durchmesser <8,5 µm.
Beispiel 8
Mit welcher Wahrscheinlichkeit hat ein beliebiger Erythrozyt einen Durchmesser zwischen
6,5 µm und 9,0 µm?
- Die gesuchte Wahrscheinlichkeit entspricht der Fläche
unter der Kurve zwischen 6,5 und 9,0 µm.
- Ermittlung von z für 6,5:
z = (x – µ)/s
z = (6,5 - 7,69)/0,77 = -1,55 (minus ignorieren)
- Ermittlung von z für 9,0:
z = (x – µ)/s
z = (9,0 - 7,69)/0,77 = 1,70
- Fläche von 0 bis -1,55: p = 0,44.
- Fläche von 0 bis 1,70: p = 0,4554.
- Die Gesamtfläche setzt sich zusammen aus den beiden Teilflächen
links und rechts von 0. Summe der beiden p-Werte: 0,895 (Abb.19).
- Mit 89,5%iger Wahrscheinlichkeit hat ein beliebiger Erythrozyt
einen Durchmesser zwischen 6,5 und 9,0 µm.
Übung 1
Bei Mäusen ist eine Infektion mit Trypanosoma brucei unbehandelt tödlich.
Nach Behandlung mit der Substanz X in der Dosierung 75 mg/kg s. c. ist die
übliche Überlebensrate 98 %. Wie wahrscheinlich ist es, dass von 10
behandelten Tieren alle 10 überleben?
Lösung zur Übung 1 Das Fenster bitte anschließend schließen!
Übung 2
Die Gewichte der Eier einer Hühnerpopulation sind mit N(64,8;5,9) normalverteilt. (Kapitel 3)
Wie groß ist die Wahrscheinlichkeit dafür, dass ein beliebiges Ei aus der Population
>70 g wiegt? Gesucht ist P(x > 70 g)
Lösung zur Übung 2 Das Fenster bitte anschließend schließen!
Übung 3
Wie groß ist die Wahrscheinlichkeit dafür, dass ein Ei zwischen 55 g und 60 g wiegt?
N(64,8;5,9) : P (55 < x < 60)
Lösung zur Übung 3 Das Fenster bitte anschließend schließen!
Übung 4
Von einem Diagnoseverfahren ist bekannt, dass in 5 % aller Fälle ein falsch positives
Ergebnis auftritt. Berechnen Sie die Wahrscheinlichkeit dafür, dass bei 20 Diagnosen
zwei falsche Entscheidungen auftreten.
Lösung zur Übung 4 Das Fenster bitte anschließend schließen!
Übung 5
Über Jahre gemittelt ist der Männeranteil der Auszubildenden in einem Beruf im 1. Ausbildungsjahr
12 %. Wie groß ist die Wahrscheinlichkeit dafür, dass bei der nächsten Einstellung von 26 Personen
3 Männer dabei sind?
Lösung zur Übung 5 Das Fenster bitte anschließend schließen!