7  Wahrscheinlichkeitsverteilungen

(Die folgenden Kapitel enthalten Passagen aus: F.Keller, Statistik für naturwissen­schaftliche Berufe, 4. Auflage 1993, pmi-Verlag, Frankfurt am Main)


7.1  Häufigkeitsverteilungen – Wahrscheinlichkeitsverteilungen

Häufigkeitsverteilungen (empirische Verteilungen, Kapitel 3) werden in der deskriptiven Statistik angewendet um die absolute und/oder relative Häufigkeit von Daten tabellarisch und/oder graphisch darzustellen. Dieser Verteilungstyp ist an empirische Daten gebunden. Liegen keine Daten vor, dann gibt es auch keine Häufigkeitsverteilung.

Wahrscheinlichkeitsverteilungen (theoretische Verteilungen) sind von Mathe­matikern theoretisch entwickelte Funktionen, die es erlauben, die Verteilung der Wahrscheinlichkeiten, mit denen Experimentalergebnisse auftreten, zu berechnen. Selbst wenn keine Daten vorliegen, sind solche Verteilung als mathematische Formulierung vorhanden. Für die Statistik wichtige Wahrscheinlich­keits­verteilungen sind u. a. die Normalverteilung, die Binominalverteilung, die Poissonverteilung, die F-Verteilung, die t-Verteilung und die Chi²-Verteilung. Bei der Normalverteilung haben wir in Kapitel 3 gesehen, wie empirische Daten angenähert durch eine Normalverteilung beschrieben werden können. Erfahrungsgemäß lassen sich viele Experimentalergebnisse bei hinreichend großen Stichproben durch die eine oder andere theoretische Verteilung approximiert beschreiben.

Wir unterscheiden zwei Formen der Wahrscheinlichkeitsverteilungen.

  1. Diskrete Verteilungen, z. B.
    1. Binominalverteilung
    2. Poissonverteilung
    Hier kann für jedes denkbare Versuchsergebnis berechnet werden, mit welcher Wahrscheinlichkeit es unter bekannten Bedingungen eintreten wird. Beispiel: Wir werfen fünf mal eine Münze und können berechnen, wie wahrscheinlich es ist, dass bei den fünf Würfen 3 mal die Zahl oben liegen wird.
  2. Stetige Verteilungen, z. B.
    1. Normalverteilung
    2. Chi²-Verteilung
    3. t-Verteilung
    4. F-Verteilung
    Hier können wir für ein einzelnes Versuchsergebnis nicht berechnen, mit welcher Wahrscheinlichkeit es eintreten wird. Weil es bei stetigen Daten (reelle Zahlen) unendlich viele Ergebnisse geben kann ist für das Einzelergebnis die Wahrscheinlichkeit seines Auftretens gleich Null. Beispiel: Sie wiegen ein Hühnerei. Wie wahrscheinlich ist es, dass das Ei exakt 55,0000... 0 g wiegt. Es sind theoretisch unendlich viele Ergebnisse denkbar, da die Stellenzahl unbegrenzt ist. Selbst zwischen 55,0 g und 55,1 g liegen prinzipiell unendlich viele Werte, z. B. 55,0065492743456789... g. Die Wahrscheinlichkeit dafür, dass irgendein Wert auftritt ist so gering, dass wir dafür Null angeben. Wir können nur die Wahrscheinlichkeit dafür berechnen, dass ein beliebiges Ei zwischen 55,0 g und z. B. 60,0 g liegt. Siehe dazu bei Normalverteilung.
Ziel dieses Kapitels ist es, die Binominalverteilung und die Normalverteilung vorzustellen. Auf Chi²-Verteilung, t-Verteilung und F-Verteilung gehen wir später ein.

Theoretische, also mathematische Verteilungen, werden durch Funktionsgleichun­gen wie die folgende beschrieben:

TB_S1

Mit Hilfe dieser Gleichung, auf die wir weiter unten eingehen, können wir berechnen, wie groß die Wahrscheinlichkeit dafür ist, dass bei Zufalls­experi­menten, bei denen nur zwei Ausgänge möglich sind, ein bestimmtes Ereignis eintritt. Betrachten wir in diesem Zusammenhang eine Maus, die sechs Junge wirft. Das Werfen eines Neugeborenen könnten wir als einen Versuch ansehen, ein Männchen zu gebären. Manchmal tritt bei einem solchen Versuch der Erfolg (Männchen) ein und manchmal der Misserfolg (Weibchen). [Natürlich können wir bei diesem Gedankenexperiment die Geschlechter wechseln.] Es hängt vom Zufall ab, wie viele Männchen und wie viele Weibchen in dem Sechserwurf sind. Wir werden mit dieser Gleichung berechnen, wie groß die Wahrscheinlichkeit dafür ist, dass in einem Sechserwurf genau zwei Männchen sind.


7.2  Die Binominalverteilung B(n;p)
(nach Jacob Bernoulli auch Bernoulli-Verteilung)

Die Binominalverteilung ist eine bedeutsame Verteilung von Eintrittswahr­scheinlichkeiten diskreter Daten. Im Vorfeld müssen wir zwei Begriffe kennen lernen.

Bernoulli-Experiment
Bernoulli-Experimente sind Zufallsexperimente, bei denen nur zwei Ausgänge, nämlich Erfolg und Misserfolg, möglich sind. (Münzwurf-Experiment mit dem Ausgang Kopf oder Zahl, Würfelexperiment mit dem Ausgang „drei“ oder „nichtdrei“, Tierversuche mit dem Ausgang tot oder lebendig, geheilt oder nicht geheilt oder bei der Überprüfung von Geräten die Möglichkeit funktionstüchtig oder defekt.) Die Wahrscheinlichkeit für den Erfolg wird mit p (Erfolgswahr­scheinlichkeit) und die für den Misserfolg mit q bezeichnet. Da nur zwei Ausgänge möglich sind, muss auf jeden Fall einer der beiden Ausgänge eintreten. Nach einem Münzwurf liegt mit der Wahrscheinlichkeit 1 Kopf oder Zahl oben. Daher ist die Wahrscheinlichkeit dafür, dass Erfolg oder Misserfolg, also p oder q, eintritt gleich 1. Für die folgenden Berechnungen werden wir das Zeichen q durch den Term 1 – p ersetzen (p + q = 1).

Bernoulli-Kette
Wenn wir ein Bernoulli-Experiment unter gleichen Bedingungen n-mal durchführen und wenn die Ergebnisse der Experimente voneinander unabhängig sind, dann haben wir eine so genannte Bernoulli-Kette der Länge n und der Erfolgs­wahrscheinlichkeit p. Nach diesen beiden Parametern schreiben wir für eine Binominalverteilung auch B(n;p). Die Zahl des Auftretens des Erfolgs bei n Experimenten bezeichnen wir mit k. k ist die Zufallsvariable deren Auftreten durch den Zufall beeinflusst wird.

Mit der Werten
  • n = Anzahl der Versuche,
  • k = Anzahl der erfolgreichen Ausgänge bei n Versuchen und
  • p = Erfolgswahrscheinlichkeit
ist die Vorbedingung gegeben, die zur Berechnung der Binominalverteilung erforderlich ist. Mit diesen Werten können wir berechnen, wie groß die Wahrscheinlichkeit Pn;k dafür ist, dass bei n Versuchen k mal der Erfolg eintritt. Wir wollen das an einem fiktiven Beispiel aus der Biologie untersuchen.


7.2.1  Wie groß ist die Wahrscheinlichkeit, dass bei n Versuchen k-mal der Erfolg eintritt?

Wir züchten Mäuse des Stammes M. Eine Eigenschaft dieses Stammes sei, dass seine Nachkommen 55 % und 45 % sind. Eine Maus wirft n = 6 Junge. Die Reihenfolge, in der Männchen und Weibchen bei der Geburt der sechs Jungtiere erscheinen, ist vom Zufall abhängig. Ebenso die Anzahl der Männchen und Weibchen im Sechserwurf. Wie groß ist die Wahrscheinlichkeit Pn;k dafür, dass bei dem Sechserwurf (n = 6) genau k = 2 vorhanden sind.

Es bedeuten
  • k = 2, gefragt ist nach 2 Männchen.
  • n = 6, es sind 6 „Versuche“ der Maus, ein Männchen zu gebären (Erfolg).
  • p = 0,55 ist die Wahrscheinlichkeit dafür, ein Männchen zu gebären.
  • 1 – p = 0,45 ist die Wahrscheinlichkeit dafür kein Männchen, also ein Weibchen zu gebären.
  • Pn;k = Wahrscheinlichkeit dafür, dass bei n Versuchen k mal der Erfolg eintritt, dass hier also unter n = 6 Jungtieren k – 2 Männchen sind.
1. Berechnung der Wahrscheinlichkeit für das Auftreten von 2
Die Reihenfolge der Geschlechter bei der Geburt hängt vom Zufall ab. Die in der Aufgabe gestellte Frage bezieht sich nicht auf eine bestimmte Reihenfolge der Geschlechter bei der Geburt. Betrachten wir zunächst diese Reihenfolge
          
bei der die beiden zuerst geborenen Tiere Männchen sind. Die Wahrscheinlichkeit Pk dafür, dass diese
          
Reihenfolge eintritt, ist,

Pk( ) = p() * p() * p() * p() * p() * p()
(Und-Verknüpfung, disjunkte Ereignisse)

Pk( ) = 0,55 * 0,55 * 0,45 * 0,45 * 0,45 * 0,45

Pk( ) = = 0,552 * 0,454 = p2 * (1 – p)4

P2( ) = p2 * (1 – p)4  

Pk( ) = pk * (1 – p)n – k

Pk( ) = 0,552 * 0,454

P2( ) = 0,3025 * 0,0410

P2 = 0,01240

Die Wahrscheinlichkeit dafür, dass die Reihenfolge bei der Geburt diese
          
ist, ist also P2 = 1,24 %.

2. Andere Reihenfolgen als
Nun könnte die Geschlechterfolge bei der Geburt auch eine andere als die genannte sein, z.B.
           .
Wie viele Kombinationsmöglichkeiten es hier gibt, können Sie durch Kombinieren der Symbole ja mal versuchen festzustellen. Sie werden merken, dass das schnell unübersichtlich wird. Daher wollen wir die Anzahl der Kombinationen lieber über eine Gleichung aus der Kombinatorik berechnen.

Berechnung der Anzahl der Kombinationsmöglichkeiten von 2 und 4 bei einem Sechserwurf

TB_S4_1 TB_S4_2

Danach sind C6:2 = 15 verschiedene Kombinationen möglich. Für

          

gilt P2= 1,24 %. Welche Wahrscheinlichkeiten gelten für die 14 anderen Kombi­nationen?

3. Die Wahrscheinlichkeiten für alle 15 Kombinationsmöglichkeiten.
Die ursprünglich gestellte Frage bezog sich auf 2 Männchen, unabhängig davon, an welcher Stelle der Geburtenfolge sie stehen. Wir wissen nun, dass es 15 verschiedene Kombinationen für die Reihenfolge gibt und es stellt sich die Frage, wie groß Pk für die verschiedenen Kombinationen ist. Wir kennen diesen Wert für (1,24 %). Wenn Sie Pk zur Übung für alle Kombinationen berechnen, werden Sie feststellen, dass für alle 15 Kombinationen mit 2 und 4 die Wahrscheinlichkeit mit 0,01240 identisch ist.

Bei einem Sechslingswurf kann aber nur eine der 15 möglichen Kombinationen (C) eintreten, also C1 C2 C3 C4 ... C15. Für Oder-Verknüpfungen folgt die Addition der Einzelwahrscheinlichkeiten: P(C1) + P(C2) + P(C3) + ... P (C15) = 0,0124 + 0,0124 + 0,0124 + ... 0,0124 = 15 * 0,0124.

Wir haben jetzt folgende Werte:

Cn;k  = 15
Pk    = 0,01240

Danach folgt

Pn:k = Cn;k * Pk
P6;2 = C6;2 * P2
Pn;k = 15 * 0,01240
Pn;k = 0,186

[Gedankenstütze für den Multiplikationsfaktor 15: Wie groß ist die Wahrscheinlichkeit, dass beim Wurf eines Würfels die 1 oder 2 oder 3 oder 4 oder 5 oder 6 oben liegen wird? Sie ist gleich 1, nämlich der Summe der Einzelwahrscheinlichkeiten von je 1/6 oder 6 * 1/6.]

Damit ist die Frage zu Beispiel 1 beantwortet:
Die Wahrscheinlichkeit für das Auftreten von 2 Männchen an beliegiger Stelle in der Reihenfolge bei einem Sechserwurf beträgt 18,6 %. Bei 18,6 % aller Sechserwürfe können wir erwarten, dass 2 Männchen dabei sind.

Erweiterte Frage zu Beispiel 1

1. Andere Verteilungen der Geschlechter bei einem Sechserwurf
    Wie ist die Verteilung der Wahrscheinlichkeiten, wenn k (k n) variiert?

Diese Überlegungen folgen nicht mehr der Aufgabenstellung von Beispiel 1. Wir können Beispiel 1 aber nutzen, um eine weitere Überlegung anzustellen: Neben der Realisation 2 Männchen und 4 Weibchen (in beliebiger Folge) sind folgende Realisationen denkbar, nämlich
                0 und 6
                1 und 5
                3 und 4
                4 und 2
                5 und 1
                6 und 0

Wie sind die Wahrscheinlichkeiten für jede der sieben Realisationsmöglichkeiten? Wir variieren bei den Experimenten mit konstanten n = 6 und p = 0,55 den Wert für k von 0 bis 6 [Inkrement = 1] und fragen: Wie groß ist die Wahrscheinlichkeit, dass bei einem Sechserwurf 0,1,2,3,4,5,6 Männchen sind? Also sieben Fragen. Da wir die Reihenfolge der Geschlechter außer acht lassen können (die Wahrscheinlichkeit ist ja bei allen Kombinationsmöglichkeiten gleich), genügt die Berechnung der Wahrscheinlichkeiten für jeweils eine Reihenfolge der Realisationen, z. B. 0 und 6.

2. Berechnung der Wahrscheinlichkeiten für alle Variationen von k
Beispielhaft hier die Berechnung der Anzahl der Kombinationen bei 0 und 6

0 und 6:
Pk( ) = p() * p() * p() * p() * p() * p()
Pk = P0 = 0,456 = 0,008038          [n = 6; k = 0]

TB_S5_1

Daraus folgt: P6;0 = C6;0 * P0 = 1 * 0,008038 = 0,008038
Die Wahrscheinlichkeit dafür, dass 0 Männchen geboren werden, ist 0,8 %.

Und für alle Kombinationen gilt
k = 0     Pn;k (0 und 6 ) = Cn;k * pk * (1-p)n-k =   1 * 0,550 * 0,456 = 0,0080

k = 1     Pn;k (1 und 5 ) = Cn;k * pk * (1-p)n-k =   6 * 0,551 * 0,455 = 0,0609

k = 2     Pn;k (2 und 4 ) = Cn;k * pk * (1-p)n-k = 15 * 0,552 * 0,454 = 0,1860

k = 3     Pn;k (3 und 3 ) = Cn;k * pk * (1-p)n-k = 20 * 0,553 * 0,453 = 0,3032

k = 4     Pn;k (4 und 2 ) = Cn;k * pk * (1-p)n-k = 15 * 0,554 * 0,452 = 0,2780

k = 5     Pn;k (5 und 1 ) = Cn;k * pk * (1-p)n-k =   6 * 0,555 * 0,451 = 0,1359

k = 6     Pn;k (6 und 0 ) = Cn;k * pk * (1-p)n-k =   1 * 0,556 * 0,450 = 0,0277

Die zusammengefassten Ergebnisse zeigen in Abb. 1, dass es am wahrschein­lichsten ist, dass gleich viele Männchen und Weibchen in dem Wurf sind. (P6;3 = 0,3032). Extrema sind am unwahrscheinlichsten. Die Verteilung der Wahrschein­lichkeiten für alle möglichen k ist schwach asymmetrisch. Sie wäre nur symmetrisch bei p = 0,5.

k Pn;k
0 0,0080
1 0,0609
2 0,1816
3 0,3032
4 0.2780
5 0,1359
6 0,0277

Abb. 1


Wie groß ist die Wahrscheinlichkeit dafür, dass bei n Versuchen k-mal der Erfolg eintritt?

Eine Urne enthält 20 rote Kugel (r) und 30 nichtrote Kugeln (n). Es soll gewettet werden. Spieler A sagt, von den vier Kugeln, die er bei vier Zügen erhält, würden zwei rote sein (und natürlich zwei nichtrote). Spieler B sagt, er würde fünf Züge machen und drei mal rot ziehen (und natürlich zwei mal nichtrot). Nach jedem Zug wird die gezogene Kugel zurückgelegt damit die Wahrscheinlichkeiten gleich bleiben. Welcher Spieler hat die größere Chance, das Spiel zu gewinnen?

Zu berechnen ist die Wahrscheinlichkeit, mit der das Erfolgsergebnis = rote Kugeln bei n Versuchen k mal eintritt.

Betrachten wir die Situation von Spieler A:
Wie groß ist die Wahrscheinlichkeit, dass bei viermaligem Ziehen je einer Kugel zwei rote Kugeln gezogen werden?

Zur Berechnung über die Gleichung Pn;k = Cn;k * pk * (1-p)n-k benötigen wir
TB_S6o
n = Anzahl der Versuche, hier 4 (Ziehungen)
k = Anzahl der Erfolgsergebnisse, hier 2 rote Kugeln (bei 4 Versuchen)
p = Wahrscheinlichkeit für das Auftreten des Erfolgsergebnisses
      bei einem Versuch, hier p(r) = 20/50 = 0,4
1-p = 0,6

Dann gilt

TB_S6m

Die Wahrscheinlichkeit, dass eine der 6 Kombinationen
          r r n n
          r n r n
          r n n r
          n r r n
          n r n r
          n n r r
auftritt, ist = 34,65 %.

Nun die Situation für Spieler B:

TB_S6u

Da P4;2 = 0,3456 > P5;3 = 0,2304, hat Spieler A hat also die größere Chance, das Spiel zu gewinnen.


7.2.2  Wie ändert sich P, wenn die Anzahl n der Versuche gegen unendlich strebt?

Bei einem Münzwurf ist die Erfolgswahrscheinlichkeit p für „Zahl liegt oben“ = 0,5. Wie groß ist die Wahrscheinlichkeit dafür, dass ein mal „Zahl oben“ liegt bei jeweils n = 1, 2, 3, 4, 5,10, 20, 50,100 Würfen?

Beispielrechnung für n = 3:
n = 3; k = 1; p = 0,5

TB_S7o

Über die Excelfunktion BINOMVERT erhalten wir folgende Ergebnisse [in die Eingabemaske für BINOMVERT muss bei „Kumuliert“ eine 0 eingegeben werden]:

k = 1 n 1 2 3 4 5
Pn;k 0,5 9,5 0,375 0,2500 0,1562

10 20 50 100
0,00976 1,907*10–5 4,44*10–14 7,89'10–29

Aus Abb.2 ist zu entnehmen, dass die Wahrscheinlichkeit, das gewünschte Ziel (ein mal Zahl liegt oben) zu erreichen mit steigendem n immer geringer wird. Letztendlich strebt die Wahrscheinlichkeit gegen Null, wenn n gegen unendlich strebt. [Wenn n, dann p]. Wir empfinden auch intuitiv, dass es sehr, sehr unwahrscheinlich ist, dass bei sehr vielen Würfen insgesamt nur ein mal die Zahl oben liegen wird.

Abb. 2


7.2.3  Die Symmetrie einer Binominalverteilung ist abhängig von p

Um dies zu zeigen berechnen wir die Wahrscheinlichkeit (Pn;k) dafür, dass bei n = 4 der Erfolg mit k = 0; 1; 2; 3; 4 mal eintritt. Wir führen den Versuch mit folgenden Anordnungen durch:
  1.      n = 4; k = 0; k = 1; k = 2; k = 3; k= 4; p = 0,3
  2.      n = 4; k = 0; k = 1; k = 2; k = 3; k= 4; p = 0,5
  3.      n = 4; k = 0; k = 1; k = 2; k = 3; k= 4; p = 0,7
Beispielhaft die Berechnung für p = 0,3 und k = 0:

TB_S7u

Die Ergebnisse wurden über die Funktion BINOMVERT in Excel berechnet:

p=0,3
Graphik weiß
p=0,5
Graphik schwarz
p=0,7
Graphik = rot
k P k P k P
0 0,2401 9 0,0625 0 0,0081
1 0,4116 1 0,25 1 0,0756
2 0,2646 2 0,375 2 0,2646
3 0,0756 3 0,25 3 0,4116
4 0,0081 4 0,0625 4 0,2401

Abb. 3

Wir entnehmen Abb. 3, dass die Binominalverteilung bei p = 0,5 symmetrisch ist. Dies gilt grundsätzlich bei p = 0,5 und nur dann.


7.3  Normalverteilung N(µ,s)

Die Normalverteilung ist eine der wichtigsten Wahrscheinlichkeitsverteilungen stetiger Daten. Die ihr zugrunde liegenden mathematischen Zusammenhänge wurden unabhängig voneinander gleich drei mal gefunden. Zunächst erkannte Abraham de Moivre diese Verteilung im 18. Jh. im Zusammenhang mit Glücksspielen. Später wurde sie von Pierre Simon Laplace ebenfalls bei der Beschäftigung mit Glücksspielen „wieder entdeckt“, und Carl Friedrich Gauß entwickelte sie anlässlich von Untersuchungen zu Messfehlern bei astronomischen Messungen. Die Bezeichnung „normal distribution“ wurde erst 1893 von Karl Pearson eingeführt. Wir verwenden heute meist die Bezeichnungen Normalverteilung, seltener de-Moivre-Verteilung oder Gaußverteilung. Die Normalverteilung steht in engem Zusammenhang mit Zufallsvariablen.


7.3.1   Zufallsvariable

Viele empirische Daten sind so genannte Zufallsvariable. Sie entstehen, wenn z. B. bei Messvorgängen die Messwerte durch viele unabhängige Faktoren zufällig beeinflusst werden. Wir füllen mit einer Vollpipette jeweils 100 µL einer Lösung in 20 Reaktionsgefäße. Ob wir exakt 100 µL abmessen oder etwas weniger oder mehr, das hängt – grobe Fehler ausgeschlossen – vom Zufall ab. Den Messwert 100 µL beeinflussen während des Messvorgangs viele Faktoren wie z. B. Schwankungen der Umgebungstemperatur, der Aufmerksamkeit des Messenden sowie dessen Ermüdungszustand. Dies führt über unterschiedliche Meniskus­einstellungen und Abtropfzeiten zu Abweichungen vom Sollwert 100 µL. Solche Einflüsse wirken sich in ihrer Summe so auf die Messwerte aus, dass bei mehreren Messungen im Mittel 100 µL abgemessen werden (Teil 2: Zufallsfehler). Aber es kommen Abweichungen nach oben und unten vor, beide gleichermaßen stark. Die Abweichungen werden um so seltener, je extremer sie sind. So wie der Volumenmesswert sind viele natürliche Daten als Zufallsvariable zu betrachten, die durch viele voneinander unabhängige Einflussgrößen zustande gekommen sind. Dies ist der Hintergrund dafür, dass zumindest approximiert normalverteilte Daten in der Natur relativ weit verbreitet sind. Der Zusammenhang zwischen Zufalls­variablen und der Normalverteilung wird durch einen wichtigen Satz der Statistik erklärt, durch den Zentralen Grenzwertsatz. Dieser Satz, auf den wir nicht näher eingehen werden, besagt, dass die Summe bzw. die arithmetischen Mittel von unabhängigen Zufallsvariablen zumindest approximiert normalverteilt sind.


7.3.2  Berechnung der Normalverteilung

Die Graphik einer Normalverteilung ist die aus Teil 3 bekannte Glockenkurve (Abb. 4). Wir haben dort empirische Daten (Gewichte von Hühnereiern) mit der Glockenkurve verglichen. Wir wollen hier an einem Beispiel zeigen, wie die Kurve zustande kommt. In ihrer idealen, symmetrischen Form werden wir sie bei empirischen Daten nicht vorfinden. Je mehr Daten vorliegen, um so besser nähert sich die Kurve empirischer Daten aber der idealen Kurve.

Abb. 4


Durchmesser menschlicher Erythrozyten
An einem gefärbten Blutausstrich haben wir bei 300 Erythrozyten den Durchmesser in µm gemessen. Durch systematische Auswahl der vermessenen Zellen wurden Doppelmessungen vermieden. Wir gehen davon aus, dass der Erythrozytendurchmesser eine Zufallsvariable ist, deren Messergebnisse zur Protokollierung auf 0,25 µm gekörnt wurden.

Aus den Messergebnissen

µm 5,00 5,25 5,50 5,75 6,00 6,25 6,50
H 1 0 2 2 3 4 10

H = absolute Häufigkeit

µm 6,75 7,00 7,25 7,50 7,75 8,00 8,25
H 15 25 35 40 45 40 25

H = absolute Häufigkeit

µm 8,50 8,75 9,00 9,25 9,50 9,75 10,00
H 20 16 10 0 4 2 1

haben wir die Kennwerte berechnet, diese sind gerundet: = 7,69 µm und sx = 0,77 µm.

Die Messwerte der Stichprobe ergeben das Bild von Abb. 5. Danach liegt das Maximum etwa in der Mitte des ranges. Extremwerte kommen um so seltener vor, je extremer sie sind. Die Kurve kommt also der Glockenkurve recht nahe. Wir folgern daraus, dass die Daten approximiert einer Normalverteilung entsprechen.

Abb. 5

Mit Hilfe der

TB S9

können wir berechnen, wie die ideale Glockenkurve für die Erythrozyten­durch­messer der Stichprobe aussieht. Notationen:
f(x) = y = Wahrscheinlichkeitsdichte
s = Parameter der Standardabweichung
m = Parameter des arithmetischen Mittels
p = 3,1416
e = Eulersche Zahl 2,7182

Die in die Gleichung einzusetzenden Parameter µ und s stehen nicht zur Verfügung, da wir ja nur eine Stichprobe untersucht haben. Wir betrachten den Stichprobenumfang von n = 300 aber als so groß, dass die Kennwerte und sx hinreichend gute Repräsentanten für deren Parameter sind und somit an deren Stelle in der Rechnung verwendet werden dürfen. p und e sind Konstanten und daher ist der Verlauf der Verteilung bzw. die Form der Kurve ausschließlich von den beiden Parametern µ und s abhängig. Die Normalverteilung wird daher mit dem Ausdruck N(µ,s) gekennzeichnet.

Wir wollen nun zeigen, wie die Normalverteilungskurve für die Erythrozyten­durchmesser mit den Werten (µ) = 7,69 µm und sx(s) = 0,77 µm berechnet wird.

Wir werden dazu für jeden der 21 Messwerte berechnen, wie groß die Wahrscheinlichkeitsdichte für ihr Auftreten ist, also jeweils deren f(x)-Wert. Beispielhaft folgt hier die Berechnung von f(x) für x = 6,00 µm.

TB S9

Da die Rechnung relativ zeitaufwendig ist, haben wir für alle x im geschlossenen Intervall [5;10] über die Excelfunktion NORMVERT die f(x)-Werte berechnet. Wer möchte, der kann die Berechnung nach Eingabe der obigen Formel über die Tastatur ausführen. Vorsicht, die Formeleingabe ist fehlerträchtig.

Die mit NORMVERT berechneten Werte sind auf fünf Nachkommastellen gerundet. (In die Eingabemaske von NORMVERT muss bei „kumuliert“ eine 0 eingegeben werden.)

µm 5,00 5,25 5,50 5,75 6,00 6,25 6,50
f(x) 0,00116 0,00342 0,00908 0,02168 0,04660 0,09015 0,15696

µm 6,75 7,00 7,25 7,50 7,75 8,00 8,25
f(x) 0,24593 0,34678 0,44006 0,50257 0,51654 0,47777 0,39771

µm 8,50 8,75 9,00 9,25 9,50 9,75 10,00
f(x) 0,29794 0,20087 0,12187 0,06655 0,03270 0 ,01446 0,00576

Die Graphik der Wahrscheinlichkeitsdichte ist die folgende Glockenkurve (Abb. 6).

Abb. 6

Typische Eigenschaften der Glockenkurve
Die Abb. 6 zeigt die berechnete Wahrscheinlichkeitsverteilung für die Parameter µ = 7,69 und s = 0,77. Wir können der Kurve die typischen Eigenschaften der Normalverteilung entnehmen. (Siehe auch Teil 3.)
  1. Die Graphik ist symmetrisch und glockenförmig.
  2. Sie ist monomodal.
  3. Die Funktionswerte f(x) nähern sich der Abszisse beidseitig asymptotisch. Das bedeutet, Extremwerte kommen um so seltener vor, je extremer sie sind.
  4. Der Erwartungswert = µ liegt unter f(x)max in der Symmetrieachse. Das Lot von f(x)max der Kurve zeigt auf der Abszisse das arithmetisches Mittel, den Modalwert und den Medianwert an. Diese drei Werte sind bei einer Normalverteilung identisch.
  5. Die Grenzen der Standardabweichung liegen auf der Abszisse bei ± s. Diese Punkte entsprechen den beiden Wendepunkten (~0,6 * f(x)max).
  6. Normalverteilte Variable sind charakterisiert durch N(µ;s).

7.4  Die Variation der Messwerte in der Normalverteilung

Zu den speziellen Eigenschaften der Normalverteilung gehört der Zusammenhang zwischen den Streubereichen ( ± sx) und dem Flächenanteil unter der Kurve (Abb. 7). Wir wollen daher die Grenzen des einfachen, doppelten und dreifachen Streubereichs, die wir auch deren Schranken nennen, berechnen.

Abb. 7

Einfacher Streubereich :      ± 1*sx = 7,69 ± 1 * 0,77 = 6,92 bis 8,46

Doppelter Streubereich :     ± 2*sx = 7,69 ± 2 * 0,77 = 6,15 bis 9,23

Dreifacher Streubereich :     ± 3*sx = 7,69 ± 3 * 0,77 = 5,38 bis 10,00

Wenn wir auf der Abszisse einer Normalverteilungskurve µ und die Streubereichsgrenzen eintragen und dann über diesen Punkten die Lote errichten, dann entstehen abgegrenzte Bereiche unter der Kurve. Würden wir die Flächen dieser Bereiche ausmessen oder berechnen, dann würden wir folgendes finden:

Die Flächen links und rechts von der Symmetrieachse entsprechen jeweils 50 % der Gesamtfläche unter der Kurve (Abb.8).

Abb. 8

Innerhalb der Schranken des einfachen Streubereichs, also im Bereich ± 1*sx liegen rund 68,3 % der Gesamtfläche unter der Kurve (Abb.9).

Abb. 9

Innerhalb der Schranken von ± 2*sx liegen rund 95,5 % der Gesamtfläche unter der Kurve (Abb.10).

Abb. 10

Innerhalb der Schranken von ± 3*sx liegen rund 99,7 % der Gesamtfläche unter der Kurve (Abb.11).

Abb. 11

Die genannten Flächenanteile der Streubereiche gelten für alle N(µ;s), unabhängig davon, welche Werte µ und s annehmen.

Die Gesamtfläche unter der Kurve (100 %) entspricht der Wahrscheinlichkeit dafür, dass ein beliebiger Messwert irgendwo auf der Abszisse unter der Kurve liegt, also der Wahrscheinlichkeit 1 (100 %). Die Fläche unter der Kurve links von der Symmetrieachse entspricht 50 % der Gesamtfläche und somit beträgt die Wahrscheinlichkeit, dass ein beliebiger Messwert links der Symmetrieachse liegt, 50 %.

Die prozentualen Flächenanteile werden also als Wahrscheinlichkeiten interpretiert.

Diese entsprechen auf der Abszisse einer Strecke, nicht einem Punkt. ± 1*sx ist eine Strecke, ein Intervall. Der Faktor für sx mag noch so klein sein, es bleibt immer eine Strecke wie z. B. bei ± 0,001*sx. Da ein Flächenanteil aber stets über einem Intervall auf der Abszisse liegt, kann auch nur für ein Intervall eine Wahrscheinlichkeit angegeben werden, nicht für einen einzelnen Wert auf der Abszisse. Durch unsere Kenntnis über die Streubereiche können wir nun z. B folgende Aussagen machen:

Ein beliebiger Wert der Population liegt mit ca.

68,3%iger Wahrscheinlichkeit in ± 1*sx
95,5%iger Wahrscheinlichkeit in ± 2*sx
99,7%iger Wahrscheinlichkeit in ± 3*sx
31,7%iger Wahrscheinlichkeit außerhalb ± 1*sx
4,5%iger Wahrscheinlichkeit ausßerhalb ± 2*sx
0,3%iger Wahrscheinlichkeit ausßerhalb ± 3*sx
15,8%iger Wahrscheinlichkeit unterhalb - 1*sx
15,8%iger Wahrscheinlichkeit oberhalb + 1*sx

Prüfen Sie mal wie viel Prozent der 300 Messwerte innerhalb der Streugrenzen liegen. Die dazu nötige Häufigkeitsliste finden Sie weiter vorne.

Klicken Sie
hier, wenn Sie das Ergebnis sehen möchten. Schließen Sie das auftauchende Fenster anschließend.

Alle zu den genannten drei Streubereichen gehörenden Prozentwerte sind 'krumm'. Mit 'krumm' meine ich Zahlen wie 95,5, mit 'glatt' solche wie 95,0. Wir könnten nun fragen, wie wir zu Streubereichen kommen können, die 'glatten' Prozent­werten entsprechen. Hier schon mal zwei Werte:

'krumm' 95,5 % + 2*sx 99,7 % + 3*sx
'glatt' 95,0 % + 1,96 *sx 99,9 % + 3,29 *sx

Bei der folgenden Standardisierung der Normalverteilung werden wir sehen, wie das geht. Fast alle Werte (99,7 %) liegen bei einer Normalverteilung innerhalb der dreifachen Streugrenzen. Nach der so genannten '3-Sigma-Regel' zählen viele Statistiker die 0,3 %, die außerhalb dieses Bereiches an den Enden der Verteilung liegen, nicht mehr zur Grundgesamtheit sondern werten sie als Ausreißer. Solche Werte können fälschlich z. B. durch Messfehler in die Stichprobe geraten sein. Sie können aber auch zur Grundgesamtheit gehören. Ob ein solcher Wert, der außerhalb der dreifachen Streuung liegt, wirklich ein Ausreißer ist, prüfen wir später mit einem speziellen Ausreißertest.


7.4.1  Wie beeinflusst die Standardabweichung die Form der Kurve?

Da in die Berechnung der Kurve nur die beiden Parameter m und s eingehen, kann die Form der Kurve nur von diesen beiden Werten abhängen. Eine Vergrößerung von m bewirkt eine Verschiebung der Kurve auf der Abszisse nach rechts. Bei Verkleinerung von m rutscht sie nach links (Abb.12).

Abb. 12

Steigt s , so wird die Kurve flacher (grün: s = 1,8), sinkt s , so wird sie schmaler und höher (schwarz: s = 0,25; rot: s = 0,77). Siehe Ann. 13.

Abb. 13



7.5  Standardisierung der Normalverteilung
(Transformation der Normalverteilung N(µ,s) in die Standardnormalverteilung N(0,1)

Die Normierung hat das Ziel, Berechnungen zur Normalverteilung zu vereinfachen. Wir wollen berechnen, mit welcher Wahrscheinlichkeit ein bestimmter X-Wert einer Verteilung oberhalb oder unterhalb einer festgelegten Grenze oder zwischen zwei Grenzen auf der Abszisse liegt. Folgende Daten aus Beispiel 5 sind bekannt:

range 5,0 µm bis 10,0 µm
= 7,69 µm
sx = 0,77 µm
± 1 * sx = 6,92 bis 8,46
± 2 * sx = 6,15 bis 9,23
± 3 * sx = 5,38 bis 10,00

Frage: Wie groß ist die Wahrscheinlichkeit dafür, dass ein beliebiger Erythrozyt aus der Population einen Durchmesser von >9,0 µm hat? Wie wir wissen, entspricht die gesuchte Wahrscheinlichkeit dem Flächenanteil unter der Kurve rechts von 9,0 µm. Stünde statt der 9 µm die 9,23 µm in der Frage, dann wäre die Lösung einfach. 9,23 µm entsprechen nämlich der oberen Schranke des doppelten Streubereichs. Im doppelten Streubereich liegen 95,5 % aller Werte. Oberhalb der oberen Schranke liegt dann die Hälfte der Differenz zu 100 %, das sind rund 2,25 %. Die Ermittlung der Fläche rechts von 9,0 µm über eine Integralrechnung ist dagegen sehr aufwendig, aber machbar. Wollten wir die Fläche rechts von 7,4 µm wissen, dann wäre eine neue Berechnung notwendig. Je nach Fragestellung wäre für jeden x-Wert in [5;10] eine Neuberechnung notwendig. Auch das wäre machbar und die erhaltenen Werte könnten tabelliert werden. Da die Flächenanteile für die Abszissenwerte jeder anderen Normalverteilung (andere Datensätze) ebenfalls neu zu berechnen wären, müßte für jeden denkbaren Datensatz eine solche Tabelle erstellt werden. Da das kaum praktikabel wäre wird die Normalverteiilung standardisiert. Damit erreichen wir, dass für beliebige Datensätze die Flächen mit nur einer Tabelle, der z-Tabelle, sehr einfach berechnet werden können. Bei der Standardisierung gehen wir im Prinzip folgendermaßen vor. Wir verschieben die Kurve auf der Abszisse soweit nach links, dass f(x)max über dem Koordinatenmittelpunkt (Null) steht (Abb.14). Da, wo die Streugrenzen auf der Abszisse liegen, kennzeichnen wie diese Punkte wie folgt:

alte Abszisse neue Abszisse
5,38 µm   - 3 s - 3 z
6,15 µm   - 2 s - 2 z
6,93 µm   - 1 s - 1 z
7,69 µm   µ 0
8,46 µm    1 s 1 z
9,23 µm    2 s 2 z
10,00 µm    3 s 3 z

Abb. 14

1 s wird zu 1 z, 2 s zu 2 z und 3 s zu 3 z, das Entsprechende gilt bei den negativen Streugrenzen. Die so erhaltene Skala nennen wir z-Skala und die Werte z-Werte. Unsere Kurve (Abb. 14 und Abb. 15) hat sich nicht verändert, sie ist nur auf der Abszisse so verschoben worden, dass f(x)max. über x = 0 liegt. Und auf der Abszisse finden wir nun nicht mehr die Messwerte, sondern die Grenzen der Streubereiche in z-Werten.

Der einfache    Streubereich geht von - 1 z bis 1 z
Der zweifache Streubereich geht von - 2 z bis 2 z
Der dreifache  Streubereich geht von - 3 z bis 3 z

Abb. 15

Abb. 16


Nun zurück zu unserer Frage: Mit welcher Wahrscheinlichkeit ist der Durchmesser eines Erythrozyten >9 µm? Auf der z-Abszisse gibt es den Wert 9 nicht mehr, da stehen nur z-Werte. Jetzt kommt der wesentliche Punkt: Wir müssen den Wert 9 in einen z-Wert umrechnen.

Dies geschieht nach

TB S 14

Dabei ist x = 9, = 7,69 und sx = 0,77
Es folgt also   z = (9 – 7,69)/0,77
                       z = 1,7

Nur benötigen wir die schon erwähnte z-Tabelle, die z. B. über das Internet zu erreichen ist. Auf die Frage „Wie groß ist der Flächenanteil rechts von 9 µm?“ ist nun die Frage geworden „Wie groß ist der Flächenanteil rechts von 1,7 z?“ Aus der Tabelle können wir entnehmen, welcher Prozentwert für z = 1,7 gilt.

Die folgende verkürzte z-Tabelle enthält nur positive z-Werte mit einer Nachkommastelle. Erhalten wir bei Berechnungen z-Werte mit mehr Nachkommastellen, so runden wir den Tabellenwerten entsprechend oder wir finden den P-Wert durch graphische Interpolation in der Kurve, die der Tabelle entspricht (Abb. 18). Erhalten wir bei der Berechnung negative z-Werte, so ignorieren wir das Minus-Zeichen. Die Tabelle entspricht dem rechten Teil der Kurve. Da diese symmetrisch ist, entsprechen die negativen z-Werte jeweils ihrem positiven Pendant.

Flächen (Wahrscheinlichkeiten), die zwischen z und 0 liegen
z p z p z p z p z p z p
0,0 0,0000 0,6 0,2257 1,2 0,3849 1,8 0,4641 2,4 0,4918 3,0 0,4987
0,1 0,0398 0,7 0,2580 1,3 0,4032 1,9 0,4713 2,5 0,4938
0,2 0,0793 0,8 0,2881 1,4 0,4192 2,0 0,4773 2,6 0,4953
0,3 0,1179 0,9 0,3159 1,5 0,4332 2,1 0,4821 2,7 0,4965
0,4 0,1554 1,0 0,3413 1,6 0,4452 2,2 0,4861 2,8 0,4974
0,5 0,1915 1,1 0,3643 1,7 0,4554 2,3 0,4893 2,9 0,4981

Es gibt verschiedene Tabellendarstellungen, die unterschiedliche Zahlen enthalten aber bei richtiger Anwendung alle zum gleichen Ergebnis führen. Wichtig ist, den Tabellenaufbau zu kennen und die Tabelle dann richtig anzuwenden.

Die vorliegende Tabelle gibt den prozentualen Anteil der Flächen an, der zwischen 0 und einem z-Wert (zwischen 0 und 3 z) liegt. Für z = 1,7 finden wir 0,4554 = 45,54 %. Nun müssen wir überlegen: Im negativen Bereich, links von 0, liegen 50 % der Fläche. Von 0 bis 1,7 z liegen 45,54 %. Das bedeutet: links von z = 1,7 liegen insgesamt 50 % + 45,54 % = 95,54 % der Gesamtfläche (Abb.17). Rechts von z = 1 liegen demnach 100 % – 95,54 % = 4,46 %. Ein kürzerer Weg: Die Fläche unter der rechten Kurvenhälfte entspricht 50 % der Gesamtfläche. 45,54 % liegen zwischen 0 und 1,7 z. Die Differenz ist 4,46 %. Das bedeutet: Ein beliebiger Erythrozyt hat mit 4,46%iger Wahrscheinlichkeit einen Durchmesser von >9 µm.

Abb. 17

Abb. 18

Mit welcher Wahrscheinlichkeit ist der Durchmesser eines beliebigen Erythrozyten <8,5 µm?
  1. Umrechnen von 8,5 µm in einen z-Wert.
    z = (x – µ)/s z = (8,5 - 7,69)/0,77 = 1,05.
  2. Ermittlung des p-Wertes für z = 1,05:
    Interpoliert über Kurve erhalten wir p = 0,354.
  3. Die Fläche links von 0 entspricht 50 %.
  4. Dazu kommen von 0 bis z = 1,05: 35,4 %.
  5. Links von z = 1,05 ( 8,5 µm) liegen also 85,4 % aller Erythrozyten­durch­messer. Das bedeutet: Ein beliebiger Erythrozyt hat also mit 85,4%iger Wahrscheinlichkeit einen Durchmesser <8,5 µm.

Mit welcher Wahrscheinlichkeit hat ein beliebiger Erythrozyt einen Durchmesser zwischen 6,5 µm und 9,0 µm?
  1. Die gesuchte Wahrscheinlichkeit entspricht der Fläche unter der Kurve zwischen 6,5 und 9,0 µm.
  2. Ermittlung von z für 6,5:
    z = (x – µ)/s z = (6,5 - 7,69)/0,77 = -1,55 (minus ignorieren)
  3. Ermittlung von z für 9,0:
    z = (x – µ)/s z = (9,0 - 7,69)/0,77 = 1,70
  4. Fläche von 0 bis -1,55: p = 0,44.
  5. Fläche von 0 bis 1,70: p = 0,4554.
  6. Die Gesamtfläche setzt sich zusammen aus den beiden Teilflächen links und rechts von 0. Summe der beiden p-Werte: 0,895 (Abb.19).
  7. Mit 89,5%iger Wahrscheinlichkeit hat ein beliebiger Erythrozyt einen Durchmesser zwischen 6,5 und 9,0 µm.

Abb. 19



Übungen

Übung 1
Bei Mäusen ist eine Infektion mit Trypanosoma brucei unbehandelt tödlich. Nach Behandlung mit der Substanz X in der Dosierung 75 mg/kg s. c. ist die übliche Überlebensrate 98 %. Wie wahrscheinlich ist es, dass von 10 behandelten Tieren alle 10 überleben?

Lösung zur Übung 1   Das Fenster bitte anschließend schließen!


Übung 2
Die Gewichte der Eier einer Hühnerpopulation sind mit N(64,8;5,9) normalverteilt. (Kapitel 3) Wie groß ist die Wahrscheinlichkeit dafür, dass ein beliebiges Ei aus der Population >70 g wiegt? Gesucht ist P(x > 70 g)

Lösung zur Übung 2   Das Fenster bitte anschließend schließen!


Übung 3
Wie groß ist die Wahrscheinlichkeit dafür, dass ein Ei zwischen 55 g und 60 g wiegt? N(64,8;5,9) : P (55 < x < 60)

Lösung zur Übung 3   Das Fenster bitte anschließend schließen!


Übung 4
Von einem Diagnoseverfahren ist bekannt, dass in 5 % aller Fälle ein falsch positives Ergebnis auftritt. Berechnen Sie die Wahrscheinlichkeit dafür, dass bei 20 Diagnosen zwei falsche Entscheidungen auftreten.

Lösung zur Übung 4   Das Fenster bitte anschließend schließen!


Übung 5
Über Jahre gemittelt ist der Männeranteil der Auszubildenden in einem Beruf im 1. Ausbildungsjahr 12 %. Wie groß ist die Wahrscheinlichkeit dafür, dass bei der nächsten Einstellung von 26 Personen 3 Männer dabei sind?

Lösung zur Übung 5   Das Fenster bitte anschließend schließen!