Verteilungen: Normal-, Binominal-, Poissonverteilung

Transcrição

Verteilungen: Normal-, Binominal-, Poissonverteilung
Medizinische Biometrie (L5)
Vorlesung III
Wichtige Verteilungen
Prof. Dr. Ulrich Mansmann
Institut für Medizinische Informationsverarbeitung,
Biometrie und Epidemiologie
[email protected]
IBE, Med. Biom. (L5)
1
Lernziele
• Normalverteilung:
Warum sind Mittelwert und Standardabweichung so
wichtig?
QQ-Plot: Wann liegt die Normalverteilung vor?
• Datentransformation:
Wie man Daten normalverteilt macht
• Binomialverteilung:
Das Auftreten von Erfolgen
• Poissonverteilung:
Die Beschreibung seltener Ereignisse
IBE, Med. Biom. (L5)
2
Beobachtung -> Abstraktion -> Modell
30
Christensen et al. (1985)
Gastroenterology 89:10841091
15
20
25
Albuminwerte von 216
Patienten mit Leberzirrhose
5
0
0
5
10
15
20
Frequency
30
25
Histogramm und Modell
10
Frequency
Histogramm
0
10
20
30
40
50
60
70
Serum Albumin [g/l]
0
10
20
30
40
50
60
70
Serum Albumin [g/l]
Modell
0.02
Medizinerstrategie:
Angabe von Mittelwert und Standardabweichung.
0.00
Dichte
0.04
Beobachtung ist zu komplex um direkt kommuniziert
zu werden. Gibt es ein Modell, das in wenigen
Worten, das Beobachtete angemessen beschreibt?
0
10
20
30
40
50
Serum Albumin [g/l]
60
70
IBE, Med. Biom. (L5)
3
Empirische Verteilung, theoretische Verteilung
• Wenn eine metrische Größe an einer großen Anzahl von Individuen gemessen wird, so
nennt man das daraus entstehende Muster des Auftretens der Werte eine empirische
(weil auf einer Beobachtung beruhend) Verteilung.
• Die Mathematik hat immer versucht, in den beobachteten Verteilungen Prototypen von
theoretischen Verteilungen zu entdecken, die sich als mathematische Objekte
beschreiben lassen und damit Berechnungen zugänglich sind.
• Als Herausforderung wurde die theoretische Beschreibung von Erfolg und Verlust beim
Glücksspiel gesehen. Wie lässt sich das Verhalten eines Münzwurfs formal beschreiben?
Wie oft kann man bei 10 Würfen einer Münze mit mehr als 7 mal Kopf rechnen?
• Die Normalverteilung ist eine der wichtigsten Verteilungen in der Statistik. Im 18.
Jahrhundert haben Mathematiker bewiesen, dass die geeignet skalierte Summe vieler
gleicher, unabhängiger Effekte immer normalverteilt ist.
• Brown‘sche Bewegung: Kleine Partikel werden in Flüssigkeiten durch die Molekularbewegung hin und her gestoßen. Ihre Position verändert sich gegenüber dem Ausgangspunkt nach der Normalverteilung.
IBE, Med. Biom. (L5)
4
Die Normalverteilung (I)
0.4
Die Normalverteilung ist
symmetrisch um den Modalwert.
0.3
Wegen der Symmetrie ist der
Modalwert auch ihr Mittelwert
und Median.
0.2
Die spitze Normalverteilung
(schwarz) ist besser um den
Mittelwert konzentriert als die
flache (rot).
0.1
Die flache Normalverteilung ist
über einen größeren Bereich
gestreut als die steile.
0.0
Dichte
Beide Flächen haben den Inhalt 1.
-10
-5
0
5
IBE, Med. Biom. (L5)
10
5
0.4
0.10
0.02
0.02
0.1
0.04
0.04
0.2
0.06
0.06
0.3
0.08
0.08
0.10
Die Normalverteilung (II): Umskalierung
0
5
10
µ = 10
σ=4
15
20
-10
Translation
-5
0
µ=0
σ=4
5
10
-2
Reskalierung
IBE, Med. Biom. (L5)
-1
0
1
2
µ=0
σ=1
6
0.4
Die Normalverteilung (III): Umskalierung
0.1
Angaben zur
Lokalisation (µ) und
Streuung (σ)
beschreiben
die Normalverteilung
vollständig
0.2
0.3
Gesamtfläche unter
der Kurve =1
0.0
Dichte
Nach geeigneter
Umskalierung
können die Dichten
verschiedener
Normalverteilungen
nicht mehr
unterschieden
werden.
µ - 4σ µ - 3σ µ - 2σ µ - σ
IBE, Med. Biom. (L5)
µ
µ + σ µ + 2σ µ + 3σ µ + 4σ
7
Die Normalverteilung (IV): Umskalierung
Wichtige Rechenregel:
0.4
Die Fläche einer Normalverteilung mit Parametern µ und σ, die
rechts vom Abszissenwert µ + x•σ liegt, ist identisch der Fläche
einer Normalverteilung mit Parametern µ = 0 und σ = 1 (Standardnormalverteilung), die rechts vom Abszissenwert x liegt.
0.2
P(µ,σ)[W>a]
0.0
0.1
Dichte
P(µ,σ)[W> µ + x•σ] = P(0,1)[Z>x]
0.3
Als Formel:
IBE, Med. Biom. (L5)
a
8
Standardnormalverteilung:
Fläche unter der Kurve
Das Integral unter der Dichtefunktion der Standardnormalverteilung für
interessierende Bereiche lässt sich explizit nur mit aufwändigen numerischen
Verfahren berechnen. Sie liegen in der Regel in tabellierter Form vor.
x P[Z>x]
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
0.5000
0.4602
0.4207
0.3821
0.3446
0.3085
0.2743
0.2420
0.2119
0.1841
x P[Z>x]
1.0
1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8
1.9
1.96
0.1587
0.1357
0.1151
0.0968
0.0808
0.0668
0.0548
0.0446
0.0359
0.0287
0.025
IBE, Med. Biom. (L5)
x P[Z>x]
2.0
2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9
3.0
0.0228
0.0179
0.0139
0.0107
0.0082
0.0062
0.0047
0.0035
0.0026
0.0019
0.0013
9
0.4
Standardnormalverteilung:
Fläche unter der Kurve
P[Z < -x]
P[Z >x ]
0.1
P(0,1)[Z>x] = P(0,1)[Z< -x]
0.2
Dichte
0.3
Zwei wichtige Regeln:
0.0
Fläche rechts von x ist gleich der
Fläche links von –x (Symmetrie um 0)
0
x
0.4
-x
P[Z >x ]
0.1
0.2
1-P[Z >x ]
0.0
Gesamtfläche addiert sich zu 1
(Eigenschaft der Dichtefunktion)
Dichte
0.3
P(0,1)[Z>x] = 1 - P(0,1)[Z§x]
0
IBE, Med. Biom. (L5)
x
10
Wahrscheinlichkeitsdichte
Wahrscheinlichkeitsverteilung
Verteilungsfunktion
1.0
0.4
Dichtefunktion
W'keit
0.4
0.2
0.1
0.2
Größe der Fläche
vor dem
Ordinatenwert
0.0
0.0
Dichte
0.6
0.3
0.8
F(x)=P(Z<x)
-4
-2
0
2
4
-4
IBE, Med. Biom. (L5)
-2
0
2
4
11
Aufgabe 1
Die Eisenbindungskapazität bei gesunden Personen ist normalverteilt mit
Mittelwert µ = 115 g / 100 ml und Standardabweichung σ = 25 g / 100ml.
In welchem zentralen Bereich um den Mittelwert liegen 95% aller Werte?
0.2
Wie muss x gewählt werden, dass die
gestrichelte Fläche den Wert 0.05 erhält?
0.0
0.1
Dichte
0.3
0.4
Wie muss x gewählt werden, dass die zentrale
Fläche den Wert 0.95 erhält?
µ - x•σ
µ + x•σ
Für die Standardnormalverteilung liegt rechts
von 1,96 noch 2.5% der Dichtefläche.
0.4
µ
0.1
0.2
0.3
Lösung: Im Bereich (115 ± 1,96•25) g/100ml liegen
95% aller Werte der Eisenbindungskapazität bei
gesunden Personen.
0.0
Dichte
Wie muss x gewählt werden, dass die Fläche
rechts außen den Wert 0.025 erhält?
µ
µ + x•σ
IBE, Med. Biom. (L5)
12
Aufgabe 2
Die Kreatininwerte von Nieren-Gesunden sind normalverteilt mit Mittelwert µ = 0,9 mg /
100 ml und Standardabweichung σ = 0,2 mg / 100ml. Kreatininwerte über 1.4 mg/ 100 ml
gelten als Anzeichen der Retention harnpflichtiger Substanzen und damit als
pathologisch.
Mit welcher Wahrscheinlichkeit ist bei einem Nieren-Gesunden ein pathologischer
Kreatinin-Wert zu erwarten?
0.4
1.4 = µ + x•σ = 0.9 + x•0.2
x = (1.4 – 0.9)/0.2 = 0.5/0.2 = 2.5
0.2
P(µ,σ)[W> µ + x•σ] = P(0,1)[Z>x]
P(0,1)[Z>2.5] < 0.0062
0.1
Lösung: Bei weniger als 0,0062% der NierenGesunden ist ein pathologischer Kreatinin-Wert zu
erwarten.
0.0
Dichte
0.3
Wie groß ist die Fläche die bei der
Standardnormalverteilung rechts von 2.5 liegt?
a
IBE, Med. Biom. (L5)
13
QQ-Plot
Normal Q-Q Plot
40
50
Die beobachtete Verteilung wird mit der
theoretischen Normalverteilung verglichen. Pro
Beobachtung wird ein Punkt in ein Koordinatenkreuz
eingetragen.
20
10
Eine Gerade wird gezeichnet, die die theoretische
Normalverteilung repräsentiert:
Abszisse der Geraden: Mittelwert
Steigung der Geraden: Standardabweichung.
0
Sample Quantiles
30
Für xi wird der Wert der empirischen
Verteilungsfunktion an xi berechnet, zu diesem
Wert wird das entsprechende Quantil zi der
Standardnormalverteilung berechnet. Der Punkt
(zi,xi) wird in ein Koordinatenkreuz eingetragen.
-2
-1
0
1
2
Folgen die Punkte der Geraden, so kann die
Normalverteilung der Beobachtung zugrunde gelegt
werden.
Theoretical Quantiles
IBE, Med. Biom. (L5)
14
QQ-Plot
Parameter der theoretischen Verteilung sind der MW
und die Standardabw. der beobachteten Daten.
Emp. Vereilung
0.8
0.6
0.2
0.4
Anteil
0.6
0.4
0.0
0.0
0.2
W'keit
0.8
1.0
1.0
Theor. Vereilung
-10
0
10
20
30
40
-10
0
10
20
30
40
Skalierung auf Standardnormalverteilung
Normal Q-Q Plot
30
20
0
10
Sample Quantiles
0.6
0.4
0.2
-10
0.0
W'keit
0.8
1.0
40
Skal. Vereilung
-3
-2
-1
0
1
2
-2
-1
0
1
2
Theoretical Quantiles
IBE, Med. Biom. (L5)
15
Log-Transformation
Serum Bilirubin von 216 Patienten mit Leberzirrhose (Christensen et al.)
Normal Q-Q Plot
500
60
600
Historgramm
200
300
Sample Quantiles
40
30
100
20
10
0
0
Frequency
400
50
Daten sind
schief verteilt
und passen nicht
zu einer Normalverteilung
0
100
200
300
400
Serum Bilirubin [µmol/l]
500
600
-3
-2
-1
0
1
2
3
Theoretical Quantiles
IBE, Med. Biom. (L5)
16
Log-Transformation
Die Logarithmusfunktion wird oft in der Beschreibung von Daten verwendet.
Man betrachtet dann die log-transformierten Werte der Messungen und nicht
die Originalwerte.
-6
-4
-2
0
2
Der Logarithmus kontrahiert Bereiche mit großen Werten und extrahiert
Wertebereiche zwischen 0 und 1. Somit können rechts-schiefe positive
Verteilungen eventuell symmetrisiert werden.
0
IBE, Med. Biom. (L5)
5
10
15
20
17
40
30
0
0
10
20
Frequency
60
40
20
Frequency
80
50
100
60
Log-Transformation
0
100
200
300
400
500
600
1
2
Serum Bilirubin
3
4
5
6
Serum Bilirubin (log-transf.)
5
4
2
3
Sample Quantiles
60
40
20
1
0
Frequency
80
6
100
Normal Q-Q Plot
0
100
200
300
Serum Bilirubin
400
500
600
-3
IBE, Med. Biom. (L5)
-2
-1
0
1
Theoretical Quantiles
2
3
18
Log-Transformation
Der arrithmetische Mittelwert der log-transformierten Beobachtungen wird
durch Exponentialisierung zum geometrischen Mittelwert der Originaldaten:
xi Originalwert der Beobachtung i
yi = log(xi) log-transformierter Wert der Beobachtung i
Arithm. Mittel der log- transf. Werte:
m = (y1 + … yn) / n
Geometrisches Mittel der Originalwerte: g = exp{m} = (x1• … • xn)1/n
IBE, Med. Biom. (L5)
19
Binomial-Verteilung
Die Wahrscheinlichkeit einer Person zur Blutgruppe B zu gehören ist etwa 8%
(0.08). Somit ist die Wahrscheinlichkeit einer Person die Blutgruppe A, 0 oder
AB zu haben 92% (0.92).
Wie groß ist die W‘keit in einer Gruppe von 4 Personen mindestens 2
Mitglieder der Gruppe B zu finden?
Keine mit B
0.92•0.92•0.92•0.92
= 0.7164
Genau eine mit B
4 • 0.08•0.92•0.92•0.92
= 0.2592
Genau zwei mit B
6 • 0.08•0.08•0.92•0.92
= 0.0325
Genau drei mit B
4 • 0.08•0.08•0.08•0.92
= 0.0012
Genau vier mit B
0.08•0.08•0.08•0.08
Gesuchte Antwort:
0.0325 + 0.0012 + 0.00004
IBE, Med. Biom. (L5)
= 0.00004
= 0.0344 ~ 3.4%
20
Binomial-Verteilung
Die Wahrscheinlichkeit bei n unabhängigen Versuchen genau k Erfolge zu
erhalten, falls die Erfolgswahrscheinlichkeit p beträgt ist:
⎛n ⎞ k
P(n , p ) (k ) = ⎜ ⎟ p ⋅ (1 − p )n −k
⎝k ⎠
⎛n ⎞
n!
⎜ ⎟=
⎝ k ⎠ k ! (n − k )!
n und p sind die Parameter
der Binomialverteilung
n ! = 1 ⋅ ... ⋅ n
Mittelwert: n•p
Varianz: n•p•(1-p)
Beispiel: W‘keit genau 2 Personen mit Blutgruppe B in einer Gruppe von 4
unabhängigen Personen zu finden? (n=4, p=0.08, k=2)
⎛ 4⎞
⎝2⎠
P( 4,0.08) (2) = ⎜⎜ ⎟⎟ ⋅ 0.082 ⋅ (1 − 0.08) 4 −2 =
4!
1 ⋅2⋅3⋅ 4
⋅ 0.082 ⋅ 0.922 =
⋅ 0.082 ⋅ 0.922 = 6 ⋅ 0.082 ⋅ 0.922
1 ⋅2 ⋅1 ⋅2
2!⋅2!
IBE, Med. Biom. (L5)
21
Poisson-Verteilung
Die Poisson-Verteilung beschreibt das Auftreten von Ereignissen in einem
Zeitintervall oder in einem räumlichen Gebiet.
Die Poisson-Verteilung spielt in epidemiologischen Analysen eine zentrale
Rolle.
Die Poisson-Verteilung wird durch einen Parameter beschrieben:
λ = mittlere Zahl von Ereignissen pro Einheit
Wahrscheinlichkeit von genau k Ereignissen bei der mittleren Anzahl von
Ereignissen pro Einheit λ;
Pλ(k) = exp{-λ}•λk / (k!)
Mittelwert: λ
Varianz: λ
IBE, Med. Biom. (L5)
22
Poisson-Verteilung
Beispiel: 1983 wurden im Umfeld von Kernkraftwerk B 10 kindliche
Leukämiefälle in einer Population von etwa 30000 Kindern gemeldet.
Die mittlere jährliche Leukämieinzidenz einer entsprechenden deutschen
Kinderpopulation betrug in diesem Jahr 10 Fälle pro 100000 Kinder.
Wie groß ist die W‘keit mindestens 10 Leukämiefälle im Umfeld von B im
betreffenden Jahr entdeckt zu haben, wenn man die deutsche
Durchschnittsinzidenz zu Grunde legt?
P(Anzahl ≥ 10) = 1 – P(Anzahl ≤ 9) = 1 – P(0) – P(1) - … - P(9)
λ = mittlere Anzahl von Ereignissen in einer Population von 30000 Kindern =
(10/100000)•30000 = 3
P(0) = P3(0) = exp{-3} = 0.05
P(1) = P3(1) = exp{-3}•3 = 0.15
P(2) = P3(2) = exp{-3}•32/2 =0.224
P(Anzahl ≥ 10) = 1 – P(Anzahl ≤ 9) = 1 – 0.999 = 0.001
IBE, Med. Biom. (L5)
23
Zusammenfassung
• Die Normalverteilung erlaubt durch die Kenntnis zweier Parameter
(Mittelwert µ und Standardabweichung σ) Verteilungseigenschaften einer
metrischen Variablen von Populationen zu beschreiben.
• Wie gut die beobachtete Verteilung in einer Population der Normalverteilung
entspricht kann durch einen QQ –Plot visualisiert werden.
• Eine Populationsvariable, deren beobachtete Verteilung stark von der
Normalverteilung abweicht, kann möglicherweise durch eine geeignete
Transformation einer Normalverteilung ähnlich gemacht werden.
Damit lassen sich über den Umweg der Transformation die Vorteile der
Normalverteilung für die Informationsübermittlung nutzen.
• Die Binomialverteilung beschreibt die Verteilung von Erfolgen in einer Serie
unabhängiger Experimente.
• Die Poissonverteilung beschreibt das Auftreten seltener Ereignisse in einer
großen Population für eine räumliche oder zeitliche Bezugseinheit.
IBE, Med. Biom. (L5)
24