4. Vorlesung

Transcrição

4. Vorlesung
Allgemeine Zielstellung der Regression
Lineare Regression
Zielstellungen
Beschreibung des Zusammenhangs von zwei metrischen Größen durch eine
Funktion
Prüfen der Adäquatheit eines linearen Modells
•
•
•
•
Ausgangspunkt sind i.a. Messpunkte einer Zielgröße Y und einer oder mehrerer
Einflussgrößen Xi (Stichprobenwerte).
abhängiges Merkmal
Y (Zielgröße, Regressand)
unabhängige Merkmale Xi (Regressoren)
Allgemeine Regressionsfunktion
Y = f (X1,…Xp)
Konfidenzintervalle und Tests für die Parameter, Prognoseintervalle
Lineare Regressionsfunktion
Y = b 0 + b 1 X1 + … + + b p Xp
Einfachster Fall: Lineare Regressionsfunktion mit nur einer unabhängigen Variablen
Y = b0 + b1 X
WS 2016/17
Prof. Dr. J. Schütze, FB GW
Einfache Reg.1
1
Lineare Regression
•
Konfidenzintervall für jeden Parameter
Test auf einen bestimmten Wert
•
Prognoseintervall für Y und EY an jeder Messstelle x
•
Konfidenzband für die gesamte Regressionsgerade
•
Test auf Gleichheit der Parameter und damit der Regressionsfunktionen,
die aus zwei Stichproben geschätzte wurden.
WS 2016/17
Schätzung für b1
 ( yi − ( b0 + b1 xi ) ) → min .
2
i =1
Varianz von X:
Residuen yi − ( b0 + b1 xi )
Der MKQ-Ansatz minimiert die Quadratsumme der Residuen.
1 n
Mean Square Error sˆ 2 = MSE =
 ( yi − yˆi )2
n − 2 i =1
Varianz von Y:
Kovarianz von X, Y
n
Nullsetzen der partiellen Ableitungen von
f (b0 , b1 ) =  ( yi − (b0 + b1 xi )) 2
Normalengleichungen
 yi = b0 ⋅ n
 xi y = b0  xi
n xi yi − (  xi  yi )
bˆ1 =
2
n xi2 − (  xi )
(  y − bˆ  x ) = y − bˆ x
WS 2016/17
Einfache Reg.1
2
In der schließenden Statistik verwendet man eine alternative Darstellung von b̂1
Optimalitätskriterium (Methode der Kleinsten Quadrate: MKQ)
1
bˆ0 =
n
Prof. Dr. J. Schütze, FB GW
Lineare Regression
y = b0 + b1 x
Linearer Zusammenhang
Optimale Parameter b0, b1 sind aus Stichprobenwerten optimal zu schätzen:
n
Test des Korrelationskoeffizienten auf 0
Test des Anteils erklärter Streuung gegen die Reststreuung
Test der Regressionskoeffizienten auf Null
bei Mehrfachmessung an einigen Messstellen Test auf linearen Zusammenhang
i
1
i
+b1  xi
+b1  xi2
1
Prof. Dr. J. Schütze, FB GW
i =1
nach b0 , b1 :
Korrelation von X, Y
mit den Lösungen
ergibt
yˆ = bˆ0 + bˆ1 x = y + bˆ1 ( x − x )
Einfache Reg.1
Bestimmtheitsmaß
3
WS 2016/17
s
s
bˆ1 = xy2 = rxy y
sx
sx
mit folgenden Bezeichnungen
1 n
1  n 2

( xi − x ) 2 =

 xi − nx 2 
n − 1 i=1
n − 1  i=1
1 n
1  n 2

( yi − y ) 2 =
s y2 =

 yi − ny 2 
n − 1 i =1
n − 1  i=1
sx2 =
1 n
1  n

( xi − x )( yi − y ) =

 xi yi − nxy 
n − 1 i =1
n − 1  i =1
1 n
 ( xi − x )( yi − y )
s
n − 1 i =1
= xy
rxy =
sx s y
1 n
1 n
2
2
( yi − y )
 ( xi − x ) ⋅ n − 1 
n − 1 i=1
i =1
sxy =
 s
Bxy = rxy2 =  xy
s s
 x y



2
Prof. Dr. J. Schütze, FB GW
 5.1
Einfache Reg.1
4
Lineare Regression
Lineare Regression
Test auf Modelladäquatheit mittels Korrelation (1)
Bivariate Korrelation
Voraussetzung: Zufallsgrößen X, Y seien normalverteilt *
Korrelationskoeffizient ρ zweier Zufallsgrößen X, Y nach Pearson wird geschätzt
durch
n
Schätzung der Korrelation ρ nach Pearson:
n
rXY =
 ( x − x )( y − y )
i
i
=
i =1
n
n
 (x − x )  ( y − y)
2
i
i =1
2
rXY =
 ( x − x )( y − y )
i
i
n
(x − x ) ( y − y)
2
s xy
i
i =1
sx s y
Nullhypothese
H0 : ρ = 0
Testgröße
T=
i
i =1
Bei perfekter Korrelation (± 1) von X, Y liegen alle Punkte auf einer Geraden.
Eine Korrelation nahe Null zeigt an, dass kein linearer Zusammenhang besteht.
=
i =1
n
2
sxy
sx s y
i
i =1
(d.h. kein linearer Zusammenhang)
rX ,Y n − 2
1− r
2
X ,Y
H0
~ tn − 2
Ablehnbereich für zweiseitigen Test bei Risiko α
T > tn − 2,1−α / 2
Folgerung
wird dieser Test nicht abgelehnt, ist eine lineare Regression ungeeignet!
Prüfen der Modelladäquatheit
Test des Korrelationskoeffizienten auf 0 muss abgelehnt werden
*genauer: X, Y müssen einer zweidimensionalen Normalverteilung genügen, s. z.B. Storm
 5.3
WS 2016/17
Prof. Dr. J. Schütze, FB GW
Einfache Reg.1
5
Lineare Regression
Quadratsummen
Freiheits- mittlere
grade
Quadratsummen
Testgröße
Voraussetzungen
Unabhängigkeit und Normalverteilung der Fehlervariablen εi an den Messstellen
SSYˆ =  ( yˆ k − y ) 2
SSE =  ( yk − yˆ k )
2
1
n-2
Mܻܵ෠ = ܻܵܵ෠/1
MSE = SSE/(n -2)
F=
Konfidenzintervalle für die Regressionsparameter zur Sicherheit 1-α
MSYˆ
MSE
k =1
Total
n
SSY =  ( yk − y ) 2
n-1
k =1
Nullhypothese: lineare Regressionsfunktion erklärt Zusammenhang zwischen X und Y nicht
MSYˆ
Testgröße
F=
MSE
Prof. Dr. J. Schütze, FB GW
Regressionskoeffizient b1
bˆ1 ± sˆb1 tn − 2,1−α / 2
Regressionskonstante b0
bˆ0 ± sˆb0 tn − 2,1−α / 2
mit
x
n ( x − x )
2
sˆb20 = sˆ2
i
i
2
1
x2 
= sˆ 2  +
2 
 n (n − 1) sx 
 5.4
Einfache Reg.1
7
sˆ 2 =
sˆb21 = sˆ 2
1
(x − x )
2
= sˆ 2
i
(n − 1) s y (1 − rxy )
1 n
 ( yi − yˆi )2 =
n − 2 i =1
n−2
2
Ablehnung der Nullhypothese (Risiko α), wenn F > F1,n − 2,1−α
WS 2016/17
6
Y wird als additive Überlagerung des Einflusses einer systematischen Komponente x
und einer zufälligen Fehlervariablen ε (Messfehler) aufgefasst.
n
k =1
n
Rest
Einfache Reg.1
Regressionsmodell
Yi = b0 + b1 xi + εi , 1 ≤ i ≤ n
Streuungszerlegung (analog ANOVA)
erklärt
Prof. Dr. J. Schütze, FB GW
Konfidenzintervalle für b0 und b1
Test auf Modelladäquatheit mittels Variationszerlegung, Globaltest (2)
Variation
WS 2016/17
WS 2016/17
1
(n − 1) sx2
2
5.5
Prof. Dr. J. Schütze, FB GW
Einfache Reg. 2 8
Konfidenzintervalle für Erwartungswert von Y
Tests für die Parameter b0 und b1
Test für Regressionskonstante b0 auf einen Referenzwert b
Konfidenzintervalle für Prognosen zur Sicherheit 1-α
Prognose für Regressionsgerade an
der Stelle x, d.h. für EY = b0 + b1 x
Prognose für Zielgröße Y an der
Stelle x
bˆ0 + bˆ1 x ± sˆv tn − 2,1−α / 2
Simultaner Konfidenzbereich für
gesamte Regressionsgerade
bˆ0 + bˆ1 x ± sˆ y F2,n − 2,1−α
1
( x − x )2  2
1 n
, sˆ =
( yi − yˆ i ) 2
mit sˆ 2y = sˆ 2  +

2 
n
x
x
n
−
−
(
)
2
i
1
=

i


 1
( x − x )2 
2
2
sˆv = sˆ  1 + +
2 
 n  ( xi − x ) 
WS 2016/17
Nullhypothese
H 0 : b0 = b
bˆ0 + bˆ1 x ± sˆ y tn − 2,1−α / 2
Prof. Dr. J. Schütze, FB GW
Alternativhypothese
H 1 : b0 ≠ b
H 0 : b0 ≤ b
H 1 : b0 > b
H 0 : b0 ≥ b
H 1 : b0 < b
Testgröße
T=
bˆ0 − b
sˆb0
Ablehnkriterium
T > tn − 2,1−α / 2
T > tn − 2,1−α
T < −tn − 2,1−α
Test für Regressionskoeffizienten b1 auf einen Referenzwert b
Nullhypothese
H 0 : b1 = b
Alternativhypothese
H 1 : b1 ≠ b
H 0 : b1 ≤ b
H 1 : b1 > b
H 0 : b1 ≥ b
H 1 : b1 < b
Testgröße
T=
bˆ1 − b
sˆb1
Ablehnkriterium
T > tn − 2,1−α / 2
T > tn − 2,1−α
T < −tn − 2,1−α
5.6
Einfache Reg. 2 9
Tests auf Modellgüte
WS 2016/17
Prof. Dr. J. Schütze, FB GW
Einfache Reg. 2 10
Linearitätstest nach Fisher
Test auf Modelladäquatheit (3)
Im Spezialfall von nur einer erklärenden Variablen: Test des Anstiegs auf Null
Der Linearitätstest nach Fisher prüft im Fall von Mehrfachmessungen die Eignung
des Datensatzes für eine lineare Regressionsfunktion
Nullhypothese: b1 = 0
Voraussetzung: zu mindestens einigen x-Werten liegen jeweils mehrere y-Werte vor
(Mehrfachmessung)
bˆ1
sˆb1
Ablehnung der Nullhypothese (Risiko α), wenn T > tn − 2,1−α / 2
Testgröße
T=
Dieser Test ist im Spezialfall von nur einer unabhängigen Variablen äquivalent zum
globalen F-Test (2) bzw. dem Test der Korrelation auf Null (1),
es gilt für die Testgrößen T² = F, und die Quantile stehen in entsprechender
Beziehung.
5.7
WS 2016/17
Prof. Dr. J. Schütze, FB GW
Einfache Reg. 2 11
Linearität zu vermuten
WS 2016/17
Zweifel an Linearität!
Prof. Dr. J. Schütze, FB GW
Einfache Reg. 2 12
Linearitätstest nach Fisher
Linearitätstest nach Fisher
Idee:
Variationsszerlegung der Regression wird verfeinert, indem die Restvariation SSE
weiter aufgespalten wird.
(y
ij
Zur Berechnung von yi sind die Daten so umzusortieren, dass zuerst die
q Messtellen x1,…,xq mit Mehrfachmessungen erscheinen,
zu den restlichen Werten xq+1,...,xm liege gegebenenfalls nur ein y-Wert vor
− y ) 2 =  ( yˆ i − y ) 2 +  ( yi − yˆ i ) 2 +  ( yij − yi ) 2
SSY =
SSYˆ
+
SSM
+ SSI

= SSE =  ( yij − yˆi )2
x1
...
xq
xq+1
y11
...
y1q
y1,q+1
y1m
1
1

Die Abweichung von der Linearität wird mit dem Anteil SSM beurteilt.
Dazu bildet man den Mittelwert yi aller y-Werte an gleicher Messstelle
und beurteilt die Abweichung dieser Gruppenmittel vom Prognosewert yˆ i auf der
linearen Regressionsfunktion.
yn1,1
Umfang
n1
...
xm

...
ynq,q
nq
SSM wird im Verhältnis zur neuen Restvariation SSI getestet.
WS 2016/17
Einfache Reg. 2 13
Prof. Dr. J. Schütze, FB GW
Linearitätstest nach Fisher
nj
yj
s
2
yj
SSI j
...
xq
S
n1
y1
...
nq
yq
n'
s
2
y1
...
s
SSI q
SSI1
SSI = SSI1 + ... + SSI q
nj
Variation der yi um die Regressionsgerade: Abweichung von der Linearität
Anzahl der jeweiligen y-Werte zu xj
y j Mittelwert der jeweiligen y-Werte zu xj
s yj2 Varianz der jeweiligen y-Werte
2
yq
SSI
SSI j = ( n j − 1) s 2yj
ist Summe von n ' = n1 + ... + nq Abweichungsquadraten,
dabei wurden q MW geschätzt, somit hat SSI n '' = n '− q = n − m Freiheitsgrade
Neue Restvariation
WS 2016/17
Variation innerhalb der y-Werte zu gleichem x-Wert um jeweiliges y i
Prof. Dr. J. Schütze, FB GW
Schätzung der Regressionsparameter aus allen Daten
ŷ = bˆ0 + bˆ1 x
Abweichung der Gruppenmittel y j von der Regressionsgeraden:
yi − yˆ( x j )
m
SSM =  n j ( y j − yˆ ( x j )) 2, bei Einfachbesetzung ist n j = 1, y j = y j
j =1
somit ist n ' = n − (m − q ) , da an m – q Stellen Einfachmessungen
SSI
M SI =
n−m
Einfache Reg. 2 14
Prof. Dr. J. Schütze, FB GW
Linearitätstest nach Fisher
Daten im ersten Block der Messwiederholungen
x1
WS 2016/17
Einfache Reg. 2 15
Da für die Regressionsgerade 2 Parameter geschätzt wurden, hat SSM noch
m - 2 Freiheitsgrade, somit
MSM =
SSM
m−2
Alternative Berechnung aus Zerlegungsformel bei Kenntnis der Restvariation SSE der Regression
SSE = SSM + SSI
WS 2016/17
Prof. Dr. J. Schütze, FB GW
Einfache Reg. 2 16
Linearitätstest nach Fisher
SSI
n−m
SSM
MSM =
m−2
MSI =
Linearitätstest nach Fisher
Streuung innerhalb der y-Werte an gleicher Messstelle
Beispiel
Abhängigkeit der Entwicklungsdauer von Flusskrebsen von der Wassertemperatur
Abweichungen von der Linearität
Nullhypothese:
Modell ist linear
Testgröße
MSM
T=
~ Fm − 2, n − m
MSI
Ablehnbereich
bei Risiko α:
T > Fm − 2, n − m ,1−α
Temperatur
18
19
19
19
19
20
20
20
20
20
Dauer
17
17
15
16
17
14
14
14
15
13
Temperatur
16
16
16
16
16
17
17
17
18
18
Dauer
22
20
19
21
21
19
20
19
18
18
x = 18.05, s x = 1.57, y = 17.45, s y = 2.68, rxy = −0.953
s
b1 = rxy y = −1.63, b0 = y − b1 x = 17.45 − 1.63 ⋅ 18.05 = 46.8
sx
Regressionsfunktion: y = 46.8 - 1.63 x
n
SSE =  ( yi − yˆ i ) 2 = ( n − 1) ⋅ s 2y (1 − rxy2 ) = 19 ⋅ 2.682 (1 − 0.9532 ) = 12.5
Restvariation:
i =1
Nullhypothese: linearer Zusammenhang besteht
WS 2016/17
Einfache Reg. 2 17
Prof. Dr. J. Schütze, FB GW
Linearitätstest nach Fisher
16
17
18
19
20
22
19
18
17
14
20
20
18
15
14
19
19
17
16
14
17
15
21
21
Prof. Dr. J. Schütze, FB GW
Einfache Reg. 2 18
Linearitätstest nach Fisher
Umsortierung der Daten nach Messstellen
Xj
WS 2016/17
m = 5 verschiedene Messstellen,
q = m = 5 da alle mit Mehrfachmessung
Variationszerlegung
 ( yij − y )2 =  ( yˆi − y )2 +  ( yi − yˆi )2 +  ( yij − yi )2
SSY = SSYˆ
+ SSM
+ SSI


SSE
mit
n
SSE =  ( yi − yˆ i ) 2 = ( n − 1) ⋅ s y2 (1 − rxy2 ) = 19 ⋅ 2.682 (1 − 0.9532 ) = 12.5
i =1
15
SSI = SSI1 + ... + SSI q = 5.2 − 0.67 − 0.67 − 2.75 − 2.00 = 11.3
nj
5
3
3
4
5
yj
s 2yj
SSI j
20.6
19.33
17.67
16.25
14.00
1.3
0.333
0.333
0.917
0.5
n ' = 20
y j Gruppenmittel
s 2yj Gruppenvarianzen
5.2
0.67
0.67
2.75
2.00
SSI j = ( n j − 1) s 2yj
und der Zerlegungsformel
Restvariation SSE = SSM + SSI
Abweichung SSM der
y j -Mittel
von der Regressionsfunktion
q
SSM =  n j ( y j − yˆ ( x j )) = SSE − SSI = 12.5 − 11.3 = 1.2
2
Neue Restvariation SSI um die Gruppenmittel
j =1
SSI = SSI1 + ... + SSI q = 5.2 − 0.67 − 0.67 − 2.75 − 2.00 = 11.3
WS 2016/17
Prof. Dr. J. Schütze, FB GW
Einfache Reg. 2 19
WS 2016/17
Prof. Dr. J. Schütze, FB GW
Einfache Reg. 2 20
Linearitätstest nach Fisher
Freiheitsgrade für SSI = 11.3
FG = n − m = 20 − 5 = 15
SSI 11.3
MSI =
=
= 0.75
15
n ''
Vergleich von zwei Regressionsgeraden
Für vergleichbare Größen X, Y aus zwei Grundgesamtheiten A und B hat man jeweils
eine lineare Regressionsfunktion geschätzt.
n = 20, m = 5
Grundgesamtheit B
yˆ A = bˆ0A + bˆ1A x A
yˆ B = bˆ B + bˆ B x B
Nullhypothesen
b1A = b1B , b0A = b0B
Grundgesamtheit A
Freiheitsgrade für SSM = 1.2
FG = m − 2 = 5 − 2 = 3
SSM
1.2
MSM =
=
= 0.4
n − 2 − n '' 20 − 2 − 15
0
1
Vortest zur Gleichheit der Restvarianzen
H 0 : MSE A = MSE B
( sˆ )
( sˆ )
A 2
MSM
0.4
Testgröße T =
=
= 0.53
MSI
0.75
Testgröße
Wegen T = 0.53 < 3.29 keine Ablehnung, somit wird Linearität angenommen.
WS 2016/17
Vergleich von zwei Regressionsgeraden
b1A = b1B
Testgröße
T=
(Parallelität der Regressionsgeraden)
bˆ1( A) − bˆ1( B )
sˆ*
1
1
+
( nA − 1)( sx( A) ) 2 ( nB − 1)( s x( B ) ) 2
mit sˆ* =
(nA − 2)( sˆ( A) ) 2 + (nB − 2)( sˆ( B ) ) 2
n A + nB − 4
(nA − 1) ( s yA ) (1 − ( rxyA ) )
2
( sˆ A ) =
2
2
Ablehnbereich
bei Risiko α
T > tnA + nB − 4,1−α /2
Entsprechend kann man die Nullhypothese b0A = b0B testen,
Vgl. Sachs, Angewandte Statistik
WS 2016/17
Prof. Dr. J. Schütze, FB GW
2
nA − 2
( nB − 1) ( s yB ) (1 − ( rxyB ) )
2
( sˆ B ) =
oder
T < FnA − 2,nB − 2,α /2
5.8
Einfache Reg. 2 21
Prof. Dr. J. Schütze, FB GW
Nullhypothese
B 2
Ablehnbereich T > FnA − 2,nB − 2,1−α /2
bei Risiko α
Ablehnbereich bei Risiko α = 0.95
T > Fm − 2, n − m ,0.95 = F3,15,0.95 = 3.29
WS 2016/17
T=
nB − 2
5.9
Einfache Reg. 2 23
2
Prof. Dr. J. Schütze, FB GW
Einfache Reg. 2 22