Im vorherigen Kapitel haben wir uns mit der Art und Darstellung von Daten und
deren Verteilungen beschäftigt. Thema dieses Kapitels ist die numerische Charakterisierung
von Daten. Darunter verstehen wir eine zusammengefasste Darstellung einer Datengruppe
durch Kennwerte der Lokalisation, der Variation (Dispersion), der Korrelation und der
Regression. Das folgende Beispiel zeigt dies für Kennwerte der Lokalisation und Variation.
Beispiel 1
Bei geschälten Sonnenblumenkernen wurde der Massenanteil w(Fett) per Soxhletextraktion
bestimmt. Die errechneten Massenanteile wurden auf eine Nachkommastelle (in g)
genau gerundet (Inkrement = 0,1 g/100 g) und notiert. Bei 25 Proben erhielten wir
die in der folgenden Tabelle stehenden Werte für w(Fett) in g/100 g. (Unter Inkrement
verstehen wir den kleinsten Betrag, um den ein Zahlenwert schrittweise verändert werden kann.)
50,0
49,5
50,4
50,4
50,4
50,4
49,8
49,9
50,1
50,8
50,4
50,3
50,0
50,3
50,5
50,3
51,1
50,3
50,3
49,8
49,9
50,6
50,1
49,9
50,1
Wenn wir zur Verbesserung der Übersicht die 25 Werte durch einen repräsentativen
Wert darstellen wollen, dann lässt sich das durch Betrachten der Tabelle nicht
unmittelbar erreichen. Zu diesem Zweck berechnen wir den
Mittelwert und haben
damit ein Charakteristikum zur Beschreibung der 25 Ergebnisse durch einen Wert,
nämlich w(Fett) = 50,22 g/100 g. Wenn wir nach einem Wert fragen, der etwas über
die Schwankungen der Einzelwerte um den Mittelwert aussagt, dann berechnen wir
dazu z. B. die
Standardabweichung
(sx) der Einzelwerte vom Mittelwert.
Für diese gilt hier sx = ± 0,34 g/100 g, und das bedeutet, im Bereich
Mittelwert ± Standardabweichung liegen ca. 68 % aller Werte (darauf gehen wir
später genauer ein). Ist dieser Bereich eng, dann streuen die Werte schwach, ist er
weit, dann streuen sie stark.
Die Präsentation der Liste mit 25 Einzelwerten kann nun durch Angabe von Mittelwert
und Streuung mit nur zwei Zahlen aussagekräftig und übersichtlich unterstützt werden.
Mittelwert
50,22 g/100 g
gesprochen x quer
Standardabweichung sx
± 0,34 g/100 g
gesprochen s x
Wir nennen diese beiden Werte Kennwerte oder Maßzahlen einer Datenreihe. Da es sich dabei
nicht immer um Zahlen handelt, werden wir in der Folge nur von
Kennwerten sprechen.
Der Mittelwert
kennzeichnet die punktuelle Lage des charakteristischen Wertes auf einer
Skala, der Streuungswert
dagegen einen Bereich auf der Skala (Abb. 1).
Kennwerte werden meist aus Daten von Stichproben ermittelt und sind damit Schätzwerte
für die Daten der Grundgesamtheit. Die den Kennwerten entsprechenden Werte der
Grundgesamtheit nennen wir Parameter. Der Stichprobenmittelwert
ist als Kennwert eine
Schätzung für den Parameter µ, den Mittelwert der Grundgesamtheit.
Folgende Vereinbarung ist üblich:
Parameter
kleine griechische Buchstaben
Kennwerte
kleine lateinische Buchstaben
µ gesprochen mü (das kleine griechische m)
s
gesprochen sigma (das kleine griechische s)
Die meisten von uns werden unter dem Begriff Mittelwert das verstehen was weiter
unten als arithmetisches Mittel beschrieben wird. Neben diesem gibt es aber auch
noch andere Mittelwerte. Wir werden uns hier mit den folgenden beschäftigen
Arithmetisches Mittel
Geometrisches Mittel
Harmonisches Mittel
Modalwert
Medianwert
Quantile
Welcher dieser Mittelwerte im konkreten Fall angewendet wird, hängt von der Art
und Verteilung der Daten sowie von der Fragestellung ab.
Bei den folgenden Berechnungen werden Messwerte in Formeln eingesetzt. Während wir
beim Rechnen mit physikalischen Größengleichungen zu den Zahlen immer die Einheiten
angeben, ist das bei statistischen Berechnungen nicht üblich. Wir setzen nur die
Zahlenwerte in die Gleichungen ein.
Wenn wir vom Mittelwert sprechen, dann meinen wir in der Regel das arithmetische
Mittel. Sind Verwechslungen mit anderen Mittelwerten denkbar, dann sollten wir immer
angeben, dass es sich konkret um das arithmetische Mittel handelt.
Das folgende Beispiel zeigt den an sich banalen Formalismus der Berechnung.
Beispiel 2
Bei einem Diabetiker wurde im Laufe mehrerer Jahren alle 3 Monate der HbA1c-Wert
gemessen, der den %-Satz des glykierten Hämoglobins im Blut angibt. Wir begnügen
uns hier mit 10 Werten aus einer umfangreichen Urliste.
i
1
2
3
4
5
6
7
8
9
10
xi
8,8
7,0
7,0
5,7
6,3
6,9
7,3
6,6
6,9
6,5
Das arithmetische Mittel wird berechnet, indem wir die Summe der Einzelwerte
(∑xi)
durch die Anzahl (n) der Einzelwerte dividieren.
Notationen (hier die Schreibweise mathematischer Formulierungen) zur Statistik
sind in der Literatur bedauerlicherweise uneinheitlich. Wir werden die hier verwendeten
Notationen bei ihrer Einführung jeweils vorstellen.
Es gelten
Berechnet wird
nach
In der Regel wird das arithmetische Mittel mit einer Dezimalstelle mehr als die vorliegenden
Daten angegeben.
Beispiel 3
Nehmen wir an, es lägen von der Urliste für Beispiel 2 die folgenden 10 Messwerte vor,
die aber mit unterschiedlicher Stellenzahl nach dem Komma angegeben wären, etwa so
Messwert
8,8
7,04
7,0
5,69
6,29
6,9
7,3
6,6
6,9
6,5
Der Grund dafür könnte sein, dass die Werte 2; 4 und 5 von einem anderen Labor ermittelt
wurden, welches die Zahlen mit zwei Nachkommastellen lieferte. Das Labor, welches die
restlichen Daten bereitstellte, hatte die Daten vor der Datenübergabe auf eine Nachkommastelle
gerundet. Die genaueren Werte dieser Daten kennen wir also nicht. Wie setzen wir diese
unterschiedlich genauen Daten in die Berechnung des Mittelwertes ein? Die Werte 2; 4 und 5
liegen mit einer höheren Genauigkeit (Inkrement 0,01 %) vor als die Übrigen (Inkrement 0,1 %).
In einer solchen Situation gehen wie folgt vor.
Wir runden die drei genaueren Werte
nach DIN 1333 (bei 0 bis <5
g
abrunden; bei 5 bis 9
g
aufrunden), so dass sie der Stellenzahl
des ungenauesten Wertes der Daten entsprechen. Daraus folgt 7,04
g
7,0; 5,69
g
5,7; 6,29
g
6,3.
Mit den gerundeten Werten wird dann wie üblich das arithmetische Mittel berechnet.
Hinweis: Manchmal können wir Berechnungen vereinfachen,
wenn wir folgendes berücksichtigen. Wenn zu jedem xi-Wert der Daten die gleiche Zahl
addiert (subtrahiert) wird, so wächst (vermindert sich)
um den gleichen Wert. Das Entsprechende gilt für die Multiplikation
(Division) der xi-Werte. Hier ändert sich
um den gleichen Faktor. Stellen wir uns vor,
wir müssten zur Addition die folgenden Werte
0,00353
0,00313
0,00267
0,00363
in einen Taschenrechner eintippen um den Mittelwert zu bilden
∑xi = 0,01296; = 0,00324.
Wenn wir vor dem Eintippen jeden Wert mit 105 multiplizieren, dann sparen wir das
Eintippen der Nullen und des Kommas. Dann ist ∑xi = 1296 und
= 324. Wenn wir nun 324 mit dem Faktor 105
multiplizieren, dann erhalten wir 0,00324. Bei längeren Datenreihen können wir durch solche
Verfahren Zeit sparen.
Das arithmetische Mittel,
wenn einzelne Messwerte gehäuft vorkommen
Beispiel 4
Einer retrospektiven Erhebung entstammen folgende 120 Werte der systolischen Blutdrucks einer
34 jährigen Frau. Die Daten sind Teil einer umfangreicheren Urliste mit Messwerten der gleichen
Person zwischen 96 und 175 mm Hg. (Häufigkeit = Hi)
Hi
9
9
6
6
21
10
16
25
18
mm Hg
114
115
116
117
118
119
120
121
122
Es fällt auf, das wir hier neun verschiedene Messwerte (114 bis 122) haben, die unterschiedlich
häufig vorkommen. Wenn wir diese neun Messwerte addieren und durch neun dividieren, erhalten
wir 1062/9 = 118,0. Dieser Wert liegt zwar im mittleren Bereich der geordneten Messwertreihe,
es ist aber leicht zu erkennen, dass er die Messwerte nicht gut repräsentiert. Denn im rechten
Teil der Reihe liegen, wie wir den Häufigkeiten entnehmen, deutlich mehr Werte als im linken
Teil. Der Mittelwert müsste also höher liegen. Wie berechnen wir in einer solchen Situation
den Mittelwert? Wir müssen bei der Berechnung die Häufigkeiten der einzelnen Messwerte
berücksichtigen. Es sind zusammen ∑H =120 Einzelwerte. Wir könnten alle 120 Werte der Urliste
addieren und die Summe durch 120 dividieren. Die Urliste mit den 120 Werten liegt uns aber
nicht vor. Wenn wie hier einzelne Daten gehäuft vorkommen, und sie mit ihren Häufigkeiten
tabelliert sind, dann bietet sich eine günstigere Berechungsform an. Dazu multiplizieren wir
jeden Messwert xi mit seiner Häufigkeit Hi wie das in der vorliegenden
Liste schon geschehen ist.
Hi
9
9
6
6
21
10
16
25
18
xi mm Hg
114
115
116
117
118
119
120
121
122
xi * Hi
1026
1035
696
702
2478
1190
1920
3025
2196
Nun berechnen wir das arithmetische Mittel nach
Diese Rechnung sieht auf den ersten Blick komplizierter aus, sie ist aber letztlich
mit weniger Aufwand verbunden. Natürlich geht mit Excel alles schneller. Wir sehen,
dass der Mittelwert
= 118,9 wie vermutet höher liegt als
= 118,0 nach der falschen Berechnung.
Beispiel 5
Aus Zuchtbehälter 1 haben wir 50 Larven des Mehlkäfers (Tenebrio molitor) einzeln gewogen.
1 = 302 mg.
Aus Zuchtbehälter 2 wogen wir 125 Tiere.
2 = 285 mg.
Wir interessieren uns nun für das mittlere Gewicht aller 175 Tiere und bilden dazu
den Mittelwert der beiden Mittelwerte nach
(1 +
2)/2
= 587/2 = 293,5 mg. Die beiden Mittelwerte, die wir hier gleichwertig behandelt haben,
sind aber nicht gleichwertig, da
2
aus einer deutlich größeren Stichprobe ermittelt wurde (n = 125) als
1
(n = 50).
2
repräsentiert also die Grundgesamtheit in Behälter 2 besser als
1
die Grundgesamtheit in Behälter 1. Wir müssen, um das zu berücksichtigen, die beiden
Mittelwerte ihren Stichprobenumfängen entsprechend gewichten. Dies geschieht durch
folgende Berechnung:
Hierdurch geht der Mittelwert
2
also 125mal in die Berechnung ein und
1
nur 50mal.
Die allgemeine Formel lautet
Beispiel 6
Zur Einführung soll ein fiktives Beispiel aus der Mikrobiologie zeigen, dass hier das
arithmetische Mittel zu einem falschen Ergebnis führt. Nehmen wir an, die Zellzahl
einer Mikroorganismenkultur hätte sich in den letzten vier Tagen so entwickelt:
Anfang des 1. Tages
1000 Zellen/mL
Ende des 1. Tages
4000 Zellen/mL
Ende des 2. Tages
20000 Zellen/mL
Ende des 3. Tages
60000 Zellen/mL
Ende des 4. Tages
240000 Zellen/mL
Nach Auftragen der Zellzahl/mL gegen die Zeit resultieren Kurven, die auf exponentielles
Wachstum schließen lassen (Abb. 4 und Abb. 5).
Die Zellzahl wächst, wie die Graphik zeigt, nicht mit der Zeit proportional.
Der Vermehrungsfaktor der MO am ersten Tag wäre
4000/1000 = 4
Der Vermehrungsfaktor der MO am zweiten Tag wäre
20000/4000 = 5
Der Vermehrungsfaktor der MO am dritten Tag wäre
60000/20000 = 3
Der Vermehrungsfaktor der MO am vierten Tag wäre
240000/60000 = 4
Die unterschiedlichen Vermehrungsfaktoren mögen durch wechselnde Umweltfaktoren für
die Kultur begründet sein. Wir wollen nun fragen, wie groß ein gleichbleibender
täglicher Vermehrungsfaktor sein müsste, um am Ende des 4. Tages 240000 Zellen/mL
zu erreichen. Mitteln wir die vier Faktoren (4; 5; 3; 4) arithmetisch, so erhalten
wir als mittleren Vermehrungsfaktor 4. Wenn wir damit die Zellzahlen am Ende eines
jeden Tages berechnen, dann erhalten wir:
1000
* 4
4000
4000
* 4
16000
16000
* 4
64000
64000
* 4
256000 (und nicht 240000)
Das arithmetische Mittel der Vermehrungsfaktoren ist also falsch, denn es führt nicht
zum richtigen Ergebnis. Führen wir die gleiche Überprüfung mit dem Faktor 3,93597
durch, so kommen wir zum korrekten Ergebnis.
1000
* 3,93597
3935,97
3935,97
* 3,93597
15491,86
13416,39687
* 3,93597
60975,50
60975,50
* 3,93597
239997,72 (Abweichung von 240000 durch Rundung bedingt)
Dieser Faktor ist also richtig. Er ist das geometrische Mittel der vier Faktoren. Wie es
berechnet wird, zeigt das folgende Beispiel aus der Mikrobiologie mit realen Werten.
Beispiel 7
Bei einer Kultur von Escherichia coli K12 wurde die Keimzahl mit dem Kochschen
Plattengußverfahren über vier Stunden stündlich untersucht. Beim Start der
Untersuchung, also zu Beginn der ersten Stunde, war die Keimzahl 5,8 * 103 K/mL.
Die weiteren Zählergebnisse und die Vermehrungsfaktoren finden wir in der folgenden
Tabelle. Zu berechnen ist der mittlere Vermehrungsfaktor, also der Faktor, der, wenn
er über die vier Stunden gleich geblieben wäre, zu der Keimzahl 268,3 * 103 Zellen/mL
geführt hätte.
Beginn
K/mL
Ende
K/mL
Vermehrungs- faktor
1. Stunde
5,8 * 103
1. Stunde
12,8 * 103
2,21
2. Stunde
12,8 * 103
2. Stunde
34,6 * 103
2,7
3. Stunde
34,6 * 103
3. Stunde
107,3 * 103
3,1
4. Stunde
107,3 * 103
4. Stunde
268,3 * 103
2,5
Der mittlere Vermehrungsfaktor ist das geometrische Mittel der vier Ver- mehrungsfaktoren.
Zur Berechnung des geometrischen Mittels können folgende Formeln angewendet werden:
Die zweite Formel ist vor allem dann interessant, wenn viel große Zahlen zu
multiplizieren sind. Das ist logarithmisch günstiger zu rechnen.
Notation:
Zunächst die Berechnung über die Logarithmen:
Das geometrische Mittel der Vermehrungsfaktoren beträgt 2,61. Die Überprüfung bestätigt das:
Und jetzt die Berechnung durch Radizieren:
Ohne Taschenrechner oder ein Rechenprogramm müssten wir die 4. Wurzel logarithmisch berechnen,
was letztlich auf die vorherige Rechnung hinausläuft:
Beispiel 8
Im Zusammenhang mit mikroskopischen Untersuchungen zur Zellstruktur höherer Pflanzen
haben wir in fünf Zellen der Staubfädenhaare von Tradescantien die Geschwindigkeit
der Protoplasmaströmung gemessen. Dies geschah mit Hilfe eines Objektmikrometers
und einer Stopuhr. An jeder Zelle wurde eine Messung durchgeführt. Für die einführende
Erklärung des harmonischen Mittels verwenden wir nur die Ergebnisse der Messungen 1 und 2.
Bei Messung 1 haben wir festgestellt, dass das Plasma die Strecke von 100 µm in 47,6 s
zurückgelegt hat, und die 2. Messung ergab für die gleiche Strecke 22,2 s. Daraus resultieren
folgende Geschwindigkeiten:
Messung 1
in 47,6 s
g
100 µm
in 1 s
g
2,1 µm
v1 = 2,1 µm/s
Messung 2
in 22,2 s
g
100 µm
in 1 s
g
4,5 µm
v2 = 4,5 µm/s
Geschwindigkeiten sind Quotienten mit gleichem Nenner (hier 1 s), die sich durch die
Zähler (hier 2,1 µm und 4,5 µm) unterscheiden.
Wenn wir nach der mittleren Geschwindigkeit vm fragen und das arithmetische Mittel
nach
= (1/n)
S
xi = 0,5 * (2,1 + 4,5) = 0,5 * 6,6 = 3,3 µm/s
berechnen, so ist, wie die folgende Überprüfung zeigt, dieser Wert falsch.
Bei den beiden Bewegungen wurden 100 µm + 100 µm = 200 µm in 47,6 s + 22,2 s = 69,8 s
zurückgelegt.
Also gilt:
in 69,8 s g 200 µm
in 1 s g 2,87 µm g v = 2,87 µm/s.
Das arithmetische Mittel 3,3 µm/s stimmt also nicht.
Wenn Quotienten mit gleichem Nenner zu mitteln sind, muss als Mittelwert das harmonische
Mittel
(H)
nach der folgenden Formel berechnet werden:
Dieser Wert stimmt (abgesehen von der Rundung) mit der obigen Prüfung 2,87 µm überein.
Wir wollen nun die mittlere Geschwindigkeit für die fünf Messergebnisse berechnen.
Anwendungen des harmonischen Mittels sind neben der Berechnung mittlerer Geschwindigkeiten
(Weg/Zeiteinheit) die Berechnung mittlerer Stückkosten bei Waren (€/Stück) und in der Biologie
die Berechnung von mittleren Überlebenszeiten. Siehe hierzu Übung Nr. 4.
Der Modalwert ist der Wert einer Gruppe von Daten, der am häufigsten auftritt. Wenn in
einer Gruppe mehrere Maxima, deren Häufigkeiten nicht gleich sein müssen, vorkommen,
dann haben wir mehrere Modalwerte (siehe bei Häufigkeitsverteilungen). Der Modus wird
nicht berechnet, sondern durch Vergleich der Häufigkeiten ermittelt.
Modalwert D = häufigster Wert des Datenbereichs
Beispiel 9 Modalwert bei quantitativen Daten
Aus einer Zucht von Schwarzkäfern (Zophobas morio) haben wir Larven auf 10 mg genau
gewogen, die Messwerte der Größe nach geordnet und dann deren Häufigkeit bestimmt.
Messwert xi in mg
Häufigkeit Hi
540
3
550
6
560
6
570
12
580
1
590
6
600
4
Ohne jede Rechnung ist aus der geordneten Liste sofort zu erkennen, dass der Wert
570 mg mit der Häufigkeit 12 am häufigsten vorkommt:
D = 570 mg.
Beispiel 10 Modalwert bei qualitativen Daten (Nominalwerte)
Nach der Differenzierung der Leukozyten einer Maus fragen wir, welche Zellform am
häufigsten vorkommt. Die Differenzierung ergab folgendes Ergebnis:
Zelltyp
10
20
30
40
50
60
70
80
90
100
Summe
Neutrophile
1
1
1
2
2
3
2
1
3
16
Basophile
0
Eosinophile
1
1
Monozyten
2
1
1
1
5
Lymphozyten
8
7
8
7
8
7
8
10
9
6
78
Die hier untersuchte nominale Merkmalsausprägung, ist nicht messbar. Durch Vergleich
ist festzustellen, ob die Ausprägung (z. B. Basophile Leucozyten) da ist und wenn ja,
ihre Häufigkeit zu zählen. Rechnerisch lassen sich hier keine Mittelwerte bilden.
Wir fragen nur: Welcher Zelltyp kommt am häufigsten vor: Mit 78 Werten bilden die Lymphozyten
die am häufigsten vorkommende Zellform und damit den Modalwert:
Hier liegt der Grund, weswegen die Quantile gelegentlich auch bei den Kennwerten
der Variation genannt werden.
Der Quartilabstand ist der Bereich auf der Skala, der zwischen Q1 und Q3 liegt.
Es ist der Bereich der Daten, in dem die mittleren 50 % aller Werte liegen.
Er wird berechnet nach
QA = |Q3 – Q1|
QA = |Q0,75 – Q0,25|
Für die Daten von Beispiel 16 gilt
QA = |Q0,75 – Q0,25|
QA = 12,5 – 10,9
Zwischen 10,9 und 12,5 liegen, wenn Sie mal nachzählen, 100 Werte = 50,25 %.
Wir werden im nächsten Kapitel bei den Kennwerten der Variation näher auf den
Quartilenabstand eingehen.
Übung 2
Wir haben bei Ratten (250 g bis 270 g, männlich, Wistar) die Nierenfunktion untersucht und dabei die endogene Kreatinin-Clearance bestimmt. Die Ergebnisse sind:
Tier Nr.
xi
mL/min
Tier Nr.
xi
mL/min
Tier Nr.
xi
mL/min
1
0,15
11
0,32
21
0,09
2
0,36
12
0,34
22
0,65
3
0,44
13
0,21
23
0,44
4
0,22
14
0,33
24
0,53
5
0,23
15
0,16
25
0,15
6
0,64
16
0,55
26
0,12
7
0,09
17
0,41
27
0,51
8
0,37
18
0,39
28
0,29
9
0,56
19
0,19
29
0,23
10
0,35
20
0,32
30
0,32
Ermitteln Sie arithmetisches Mittel, Modus und Median.
Übung 3
Bei einer wachsenden Bakterienkultur wurden über 5 Stunden Keimzahlbestimmungen durchgeführt.
Die Ergebnisse waren:
Anfang der 1. Stunde:
10 * 103 K/mL
Anfang der 2. Stunde:
25 * 103 K/mL
Anfang der 3. Stunde:
75 * 103 K/mL
Anfang der 4. Stunde:
0,275 * 106 K/mL
Anfang der 5. Stunde:
1,072 * 106 K/mL
Ende der 5.Stunde :
3,859 * 106 K/mL
Berechnen Sie das geometrische Mittel als mittleren Vermehrungsfaktor.
Weisen Sie nach, dass dieser Wert richtig ist und nicht das arithmetische Mittel.
Übung 4
Bei einem toxikologischen Langzeitversuch wurden 15 Monate nach Versuchsbeginn die Überlebenszeiten von 12 Ratten wie folgt festgestellt.
Tier
überlebte Tage
1
285 d
2
320 d
3
375 d
4
275 d
5
überlebt
6
110 d
7
überlebt
8
300 d
9
überlebt
10
295 d
11
395 d
12
400 d
Berechnen Sie das harmonische Mittel als mittlere Überlebenszeit.
Die überlebenden Tiere sind irgendwann nach 15 Monaten gestorben.
Deren Todeszeitpunkt stand aber nicht mit dem Versuch im Zusammenhang.
Diese Überlebenszeiten werden gleich