4. Vorlesung
Transcrição
4. Vorlesung
Allgemeine Zielstellung der Regression Lineare Regression Zielstellungen Beschreibung des Zusammenhangs von zwei metrischen Größen durch eine Funktion Prüfen der Adäquatheit eines linearen Modells • • • • Ausgangspunkt sind i.a. Messpunkte einer Zielgröße Y und einer oder mehrerer Einflussgrößen Xi (Stichprobenwerte). abhängiges Merkmal Y (Zielgröße, Regressand) unabhängige Merkmale Xi (Regressoren) Allgemeine Regressionsfunktion Y = f (X1,…Xp) Konfidenzintervalle und Tests für die Parameter, Prognoseintervalle Lineare Regressionsfunktion Y = b 0 + b 1 X1 + … + + b p Xp Einfachster Fall: Lineare Regressionsfunktion mit nur einer unabhängigen Variablen Y = b0 + b1 X WS 2016/17 Prof. Dr. J. Schütze, FB GW Einfache Reg.1 1 Lineare Regression • Konfidenzintervall für jeden Parameter Test auf einen bestimmten Wert • Prognoseintervall für Y und EY an jeder Messstelle x • Konfidenzband für die gesamte Regressionsgerade • Test auf Gleichheit der Parameter und damit der Regressionsfunktionen, die aus zwei Stichproben geschätzte wurden. WS 2016/17 Schätzung für b1 ( yi − ( b0 + b1 xi ) ) → min . 2 i =1 Varianz von X: Residuen yi − ( b0 + b1 xi ) Der MKQ-Ansatz minimiert die Quadratsumme der Residuen. 1 n Mean Square Error sˆ 2 = MSE = ( yi − yˆi )2 n − 2 i =1 Varianz von Y: Kovarianz von X, Y n Nullsetzen der partiellen Ableitungen von f (b0 , b1 ) = ( yi − (b0 + b1 xi )) 2 Normalengleichungen yi = b0 ⋅ n xi y = b0 xi n xi yi − ( xi yi ) bˆ1 = 2 n xi2 − ( xi ) ( y − bˆ x ) = y − bˆ x WS 2016/17 Einfache Reg.1 2 In der schließenden Statistik verwendet man eine alternative Darstellung von b̂1 Optimalitätskriterium (Methode der Kleinsten Quadrate: MKQ) 1 bˆ0 = n Prof. Dr. J. Schütze, FB GW Lineare Regression y = b0 + b1 x Linearer Zusammenhang Optimale Parameter b0, b1 sind aus Stichprobenwerten optimal zu schätzen: n Test des Korrelationskoeffizienten auf 0 Test des Anteils erklärter Streuung gegen die Reststreuung Test der Regressionskoeffizienten auf Null bei Mehrfachmessung an einigen Messstellen Test auf linearen Zusammenhang i 1 i +b1 xi +b1 xi2 1 Prof. Dr. J. Schütze, FB GW i =1 nach b0 , b1 : Korrelation von X, Y mit den Lösungen ergibt yˆ = bˆ0 + bˆ1 x = y + bˆ1 ( x − x ) Einfache Reg.1 Bestimmtheitsmaß 3 WS 2016/17 s s bˆ1 = xy2 = rxy y sx sx mit folgenden Bezeichnungen 1 n 1 n 2 ( xi − x ) 2 = xi − nx 2 n − 1 i=1 n − 1 i=1 1 n 1 n 2 ( yi − y ) 2 = s y2 = yi − ny 2 n − 1 i =1 n − 1 i=1 sx2 = 1 n 1 n ( xi − x )( yi − y ) = xi yi − nxy n − 1 i =1 n − 1 i =1 1 n ( xi − x )( yi − y ) s n − 1 i =1 = xy rxy = sx s y 1 n 1 n 2 2 ( yi − y ) ( xi − x ) ⋅ n − 1 n − 1 i=1 i =1 sxy = s Bxy = rxy2 = xy s s x y 2 Prof. Dr. J. Schütze, FB GW 5.1 Einfache Reg.1 4 Lineare Regression Lineare Regression Test auf Modelladäquatheit mittels Korrelation (1) Bivariate Korrelation Voraussetzung: Zufallsgrößen X, Y seien normalverteilt * Korrelationskoeffizient ρ zweier Zufallsgrößen X, Y nach Pearson wird geschätzt durch n Schätzung der Korrelation ρ nach Pearson: n rXY = ( x − x )( y − y ) i i = i =1 n n (x − x ) ( y − y) 2 i i =1 2 rXY = ( x − x )( y − y ) i i n (x − x ) ( y − y) 2 s xy i i =1 sx s y Nullhypothese H0 : ρ = 0 Testgröße T= i i =1 Bei perfekter Korrelation (± 1) von X, Y liegen alle Punkte auf einer Geraden. Eine Korrelation nahe Null zeigt an, dass kein linearer Zusammenhang besteht. = i =1 n 2 sxy sx s y i i =1 (d.h. kein linearer Zusammenhang) rX ,Y n − 2 1− r 2 X ,Y H0 ~ tn − 2 Ablehnbereich für zweiseitigen Test bei Risiko α T > tn − 2,1−α / 2 Folgerung wird dieser Test nicht abgelehnt, ist eine lineare Regression ungeeignet! Prüfen der Modelladäquatheit Test des Korrelationskoeffizienten auf 0 muss abgelehnt werden *genauer: X, Y müssen einer zweidimensionalen Normalverteilung genügen, s. z.B. Storm 5.3 WS 2016/17 Prof. Dr. J. Schütze, FB GW Einfache Reg.1 5 Lineare Regression Quadratsummen Freiheits- mittlere grade Quadratsummen Testgröße Voraussetzungen Unabhängigkeit und Normalverteilung der Fehlervariablen εi an den Messstellen SSYˆ = ( yˆ k − y ) 2 SSE = ( yk − yˆ k ) 2 1 n-2 Mܻܵ = ܻܵܵ/1 MSE = SSE/(n -2) F= Konfidenzintervalle für die Regressionsparameter zur Sicherheit 1-α MSYˆ MSE k =1 Total n SSY = ( yk − y ) 2 n-1 k =1 Nullhypothese: lineare Regressionsfunktion erklärt Zusammenhang zwischen X und Y nicht MSYˆ Testgröße F= MSE Prof. Dr. J. Schütze, FB GW Regressionskoeffizient b1 bˆ1 ± sˆb1 tn − 2,1−α / 2 Regressionskonstante b0 bˆ0 ± sˆb0 tn − 2,1−α / 2 mit x n ( x − x ) 2 sˆb20 = sˆ2 i i 2 1 x2 = sˆ 2 + 2 n (n − 1) sx 5.4 Einfache Reg.1 7 sˆ 2 = sˆb21 = sˆ 2 1 (x − x ) 2 = sˆ 2 i (n − 1) s y (1 − rxy ) 1 n ( yi − yˆi )2 = n − 2 i =1 n−2 2 Ablehnung der Nullhypothese (Risiko α), wenn F > F1,n − 2,1−α WS 2016/17 6 Y wird als additive Überlagerung des Einflusses einer systematischen Komponente x und einer zufälligen Fehlervariablen ε (Messfehler) aufgefasst. n k =1 n Rest Einfache Reg.1 Regressionsmodell Yi = b0 + b1 xi + εi , 1 ≤ i ≤ n Streuungszerlegung (analog ANOVA) erklärt Prof. Dr. J. Schütze, FB GW Konfidenzintervalle für b0 und b1 Test auf Modelladäquatheit mittels Variationszerlegung, Globaltest (2) Variation WS 2016/17 WS 2016/17 1 (n − 1) sx2 2 5.5 Prof. Dr. J. Schütze, FB GW Einfache Reg. 2 8 Konfidenzintervalle für Erwartungswert von Y Tests für die Parameter b0 und b1 Test für Regressionskonstante b0 auf einen Referenzwert b Konfidenzintervalle für Prognosen zur Sicherheit 1-α Prognose für Regressionsgerade an der Stelle x, d.h. für EY = b0 + b1 x Prognose für Zielgröße Y an der Stelle x bˆ0 + bˆ1 x ± sˆv tn − 2,1−α / 2 Simultaner Konfidenzbereich für gesamte Regressionsgerade bˆ0 + bˆ1 x ± sˆ y F2,n − 2,1−α 1 ( x − x )2 2 1 n , sˆ = ( yi − yˆ i ) 2 mit sˆ 2y = sˆ 2 + 2 n x x n − − ( ) 2 i 1 = i 1 ( x − x )2 2 2 sˆv = sˆ 1 + + 2 n ( xi − x ) WS 2016/17 Nullhypothese H 0 : b0 = b bˆ0 + bˆ1 x ± sˆ y tn − 2,1−α / 2 Prof. Dr. J. Schütze, FB GW Alternativhypothese H 1 : b0 ≠ b H 0 : b0 ≤ b H 1 : b0 > b H 0 : b0 ≥ b H 1 : b0 < b Testgröße T= bˆ0 − b sˆb0 Ablehnkriterium T > tn − 2,1−α / 2 T > tn − 2,1−α T < −tn − 2,1−α Test für Regressionskoeffizienten b1 auf einen Referenzwert b Nullhypothese H 0 : b1 = b Alternativhypothese H 1 : b1 ≠ b H 0 : b1 ≤ b H 1 : b1 > b H 0 : b1 ≥ b H 1 : b1 < b Testgröße T= bˆ1 − b sˆb1 Ablehnkriterium T > tn − 2,1−α / 2 T > tn − 2,1−α T < −tn − 2,1−α 5.6 Einfache Reg. 2 9 Tests auf Modellgüte WS 2016/17 Prof. Dr. J. Schütze, FB GW Einfache Reg. 2 10 Linearitätstest nach Fisher Test auf Modelladäquatheit (3) Im Spezialfall von nur einer erklärenden Variablen: Test des Anstiegs auf Null Der Linearitätstest nach Fisher prüft im Fall von Mehrfachmessungen die Eignung des Datensatzes für eine lineare Regressionsfunktion Nullhypothese: b1 = 0 Voraussetzung: zu mindestens einigen x-Werten liegen jeweils mehrere y-Werte vor (Mehrfachmessung) bˆ1 sˆb1 Ablehnung der Nullhypothese (Risiko α), wenn T > tn − 2,1−α / 2 Testgröße T= Dieser Test ist im Spezialfall von nur einer unabhängigen Variablen äquivalent zum globalen F-Test (2) bzw. dem Test der Korrelation auf Null (1), es gilt für die Testgrößen T² = F, und die Quantile stehen in entsprechender Beziehung. 5.7 WS 2016/17 Prof. Dr. J. Schütze, FB GW Einfache Reg. 2 11 Linearität zu vermuten WS 2016/17 Zweifel an Linearität! Prof. Dr. J. Schütze, FB GW Einfache Reg. 2 12 Linearitätstest nach Fisher Linearitätstest nach Fisher Idee: Variationsszerlegung der Regression wird verfeinert, indem die Restvariation SSE weiter aufgespalten wird. (y ij Zur Berechnung von yi sind die Daten so umzusortieren, dass zuerst die q Messtellen x1,…,xq mit Mehrfachmessungen erscheinen, zu den restlichen Werten xq+1,...,xm liege gegebenenfalls nur ein y-Wert vor − y ) 2 = ( yˆ i − y ) 2 + ( yi − yˆ i ) 2 + ( yij − yi ) 2 SSY = SSYˆ + SSM + SSI = SSE = ( yij − yˆi )2 x1 ... xq xq+1 y11 ... y1q y1,q+1 y1m 1 1 Die Abweichung von der Linearität wird mit dem Anteil SSM beurteilt. Dazu bildet man den Mittelwert yi aller y-Werte an gleicher Messstelle und beurteilt die Abweichung dieser Gruppenmittel vom Prognosewert yˆ i auf der linearen Regressionsfunktion. yn1,1 Umfang n1 ... xm ... ynq,q nq SSM wird im Verhältnis zur neuen Restvariation SSI getestet. WS 2016/17 Einfache Reg. 2 13 Prof. Dr. J. Schütze, FB GW Linearitätstest nach Fisher nj yj s 2 yj SSI j ... xq S n1 y1 ... nq yq n' s 2 y1 ... s SSI q SSI1 SSI = SSI1 + ... + SSI q nj Variation der yi um die Regressionsgerade: Abweichung von der Linearität Anzahl der jeweiligen y-Werte zu xj y j Mittelwert der jeweiligen y-Werte zu xj s yj2 Varianz der jeweiligen y-Werte 2 yq SSI SSI j = ( n j − 1) s 2yj ist Summe von n ' = n1 + ... + nq Abweichungsquadraten, dabei wurden q MW geschätzt, somit hat SSI n '' = n '− q = n − m Freiheitsgrade Neue Restvariation WS 2016/17 Variation innerhalb der y-Werte zu gleichem x-Wert um jeweiliges y i Prof. Dr. J. Schütze, FB GW Schätzung der Regressionsparameter aus allen Daten ŷ = bˆ0 + bˆ1 x Abweichung der Gruppenmittel y j von der Regressionsgeraden: yi − yˆ( x j ) m SSM = n j ( y j − yˆ ( x j )) 2, bei Einfachbesetzung ist n j = 1, y j = y j j =1 somit ist n ' = n − (m − q ) , da an m – q Stellen Einfachmessungen SSI M SI = n−m Einfache Reg. 2 14 Prof. Dr. J. Schütze, FB GW Linearitätstest nach Fisher Daten im ersten Block der Messwiederholungen x1 WS 2016/17 Einfache Reg. 2 15 Da für die Regressionsgerade 2 Parameter geschätzt wurden, hat SSM noch m - 2 Freiheitsgrade, somit MSM = SSM m−2 Alternative Berechnung aus Zerlegungsformel bei Kenntnis der Restvariation SSE der Regression SSE = SSM + SSI WS 2016/17 Prof. Dr. J. Schütze, FB GW Einfache Reg. 2 16 Linearitätstest nach Fisher SSI n−m SSM MSM = m−2 MSI = Linearitätstest nach Fisher Streuung innerhalb der y-Werte an gleicher Messstelle Beispiel Abhängigkeit der Entwicklungsdauer von Flusskrebsen von der Wassertemperatur Abweichungen von der Linearität Nullhypothese: Modell ist linear Testgröße MSM T= ~ Fm − 2, n − m MSI Ablehnbereich bei Risiko α: T > Fm − 2, n − m ,1−α Temperatur 18 19 19 19 19 20 20 20 20 20 Dauer 17 17 15 16 17 14 14 14 15 13 Temperatur 16 16 16 16 16 17 17 17 18 18 Dauer 22 20 19 21 21 19 20 19 18 18 x = 18.05, s x = 1.57, y = 17.45, s y = 2.68, rxy = −0.953 s b1 = rxy y = −1.63, b0 = y − b1 x = 17.45 − 1.63 ⋅ 18.05 = 46.8 sx Regressionsfunktion: y = 46.8 - 1.63 x n SSE = ( yi − yˆ i ) 2 = ( n − 1) ⋅ s 2y (1 − rxy2 ) = 19 ⋅ 2.682 (1 − 0.9532 ) = 12.5 Restvariation: i =1 Nullhypothese: linearer Zusammenhang besteht WS 2016/17 Einfache Reg. 2 17 Prof. Dr. J. Schütze, FB GW Linearitätstest nach Fisher 16 17 18 19 20 22 19 18 17 14 20 20 18 15 14 19 19 17 16 14 17 15 21 21 Prof. Dr. J. Schütze, FB GW Einfache Reg. 2 18 Linearitätstest nach Fisher Umsortierung der Daten nach Messstellen Xj WS 2016/17 m = 5 verschiedene Messstellen, q = m = 5 da alle mit Mehrfachmessung Variationszerlegung ( yij − y )2 = ( yˆi − y )2 + ( yi − yˆi )2 + ( yij − yi )2 SSY = SSYˆ + SSM + SSI SSE mit n SSE = ( yi − yˆ i ) 2 = ( n − 1) ⋅ s y2 (1 − rxy2 ) = 19 ⋅ 2.682 (1 − 0.9532 ) = 12.5 i =1 15 SSI = SSI1 + ... + SSI q = 5.2 − 0.67 − 0.67 − 2.75 − 2.00 = 11.3 nj 5 3 3 4 5 yj s 2yj SSI j 20.6 19.33 17.67 16.25 14.00 1.3 0.333 0.333 0.917 0.5 n ' = 20 y j Gruppenmittel s 2yj Gruppenvarianzen 5.2 0.67 0.67 2.75 2.00 SSI j = ( n j − 1) s 2yj und der Zerlegungsformel Restvariation SSE = SSM + SSI Abweichung SSM der y j -Mittel von der Regressionsfunktion q SSM = n j ( y j − yˆ ( x j )) = SSE − SSI = 12.5 − 11.3 = 1.2 2 Neue Restvariation SSI um die Gruppenmittel j =1 SSI = SSI1 + ... + SSI q = 5.2 − 0.67 − 0.67 − 2.75 − 2.00 = 11.3 WS 2016/17 Prof. Dr. J. Schütze, FB GW Einfache Reg. 2 19 WS 2016/17 Prof. Dr. J. Schütze, FB GW Einfache Reg. 2 20 Linearitätstest nach Fisher Freiheitsgrade für SSI = 11.3 FG = n − m = 20 − 5 = 15 SSI 11.3 MSI = = = 0.75 15 n '' Vergleich von zwei Regressionsgeraden Für vergleichbare Größen X, Y aus zwei Grundgesamtheiten A und B hat man jeweils eine lineare Regressionsfunktion geschätzt. n = 20, m = 5 Grundgesamtheit B yˆ A = bˆ0A + bˆ1A x A yˆ B = bˆ B + bˆ B x B Nullhypothesen b1A = b1B , b0A = b0B Grundgesamtheit A Freiheitsgrade für SSM = 1.2 FG = m − 2 = 5 − 2 = 3 SSM 1.2 MSM = = = 0.4 n − 2 − n '' 20 − 2 − 15 0 1 Vortest zur Gleichheit der Restvarianzen H 0 : MSE A = MSE B ( sˆ ) ( sˆ ) A 2 MSM 0.4 Testgröße T = = = 0.53 MSI 0.75 Testgröße Wegen T = 0.53 < 3.29 keine Ablehnung, somit wird Linearität angenommen. WS 2016/17 Vergleich von zwei Regressionsgeraden b1A = b1B Testgröße T= (Parallelität der Regressionsgeraden) bˆ1( A) − bˆ1( B ) sˆ* 1 1 + ( nA − 1)( sx( A) ) 2 ( nB − 1)( s x( B ) ) 2 mit sˆ* = (nA − 2)( sˆ( A) ) 2 + (nB − 2)( sˆ( B ) ) 2 n A + nB − 4 (nA − 1) ( s yA ) (1 − ( rxyA ) ) 2 ( sˆ A ) = 2 2 Ablehnbereich bei Risiko α T > tnA + nB − 4,1−α /2 Entsprechend kann man die Nullhypothese b0A = b0B testen, Vgl. Sachs, Angewandte Statistik WS 2016/17 Prof. Dr. J. Schütze, FB GW 2 nA − 2 ( nB − 1) ( s yB ) (1 − ( rxyB ) ) 2 ( sˆ B ) = oder T < FnA − 2,nB − 2,α /2 5.8 Einfache Reg. 2 21 Prof. Dr. J. Schütze, FB GW Nullhypothese B 2 Ablehnbereich T > FnA − 2,nB − 2,1−α /2 bei Risiko α Ablehnbereich bei Risiko α = 0.95 T > Fm − 2, n − m ,0.95 = F3,15,0.95 = 3.29 WS 2016/17 T= nB − 2 5.9 Einfache Reg. 2 23 2 Prof. Dr. J. Schütze, FB GW Einfache Reg. 2 22