Modell Komplexität und Generalisierung

Transcrição

Modell Komplexität und Generalisierung
Tagetfunktion und Rauschen
Overtting-Undertting
Testdaten
Bias-Varianz Analyse
Modell Komplexität und Generalisierung
Christian Herta
November, 2013
1 von 41
Christian Herta
Bias-Variance
Lern Kurven
Tagetfunktion und Rauschen
Overtting-Undertting
Testdaten
Bias-Varianz Analyse
Lernziele
Konzepte des maschinellen Lernens
Targetfunktion
Overtting, Undertting
Generalisierung
Out-of-sample error und Testdaten
Modell-Komplexität (model complexität)
2 von 41
Christian Herta
Bias-Variance
Lern Kurven
Tagetfunktion und Rauschen
Overtting-Undertting
Outline
3 von 41
1
Tagetfunktion und Rauschen
2
Overtting-Undertting
3
Testdaten
4
Bias-Varianz Analyse
5
Lern Kurven
Christian Herta
Bias-Variance
Testdaten
Bias-Varianz Analyse
Lern Kurven
Tagetfunktion und Rauschen
Overtting-Undertting
Testdaten
Bias-Varianz Analyse
Lern Kurven
Targetfunktion
Es soll eine unbekannte Funktion, die sogenannte Targetfunktion
t (~x ),
angenähert werden.
Erhält man die Datentargets
so kann man
y
y deterministisch
schreiben:
y = t (~x )
4 von 41
aus den
~x
Werten,
als Funktion, der sogenannten Targetfunktion
Christian Herta
Bias-Variance
t,
Tagetfunktion und Rauschen
Overtting-Undertting
Testdaten
Bias-Varianz Analyse
Lern Kurven
Verrauschte Targets
Die unbekannte Targetfunktion
~x (i )
nicht (direkt) dem
y (i ) .
t (~x )
entspricht in der Regel für ein
Die Daten sind typischerweise verrauscht. Dies kann man
folgenderweise modellieren:
y (i ) = t (~x (i ) ) + mit einer Zufallsvariable
(= stochastisches Rauschen)
Somit erhält man statt einer Funktion eine Wahrscheinlichkeitsverteilung
p(y |~x )
Die Wahrscheinlichkeitsverteilung des Rauschens kann dabei auch von
5 von 41
Christian Herta
Bias-Variance
~
x
abhängen
p(|~x ).
Tagetfunktion und Rauschen
Overtting-Undertting
Testdaten
Bias-Varianz Analyse
Lern Kurven
Ziel des Lernens und Trainingsdaten
Ziel des Lernens: Finden einer geeigneten Hypothese
h(~x ) ≈ t (~x )
für alle interessanten
werden soll. p (~x )
~x ,
d.h.
~x
für die eine Vorhersage gemacht
hinreichend groÿ.
Die Traingsdaten sind verrauscht:
y (i ) = t (~x (i ) ) + Welche Muster liegen der Targetfunktion zu Grunde und welche
sampling
kommen zufällig aus der Auswahl der Trainingsdaten (
error).
Die Werte der Hypothese
h(~x (i ) )
sollte nicht perfekt den
Trainingsdaten entsprechen. Aber wie weit soll die
Übereinstimmung sein?
6 von 41
Christian Herta
Bias-Variance
y (i )
der
Tagetfunktion und Rauschen
Overtting-Undertting
Lern-Diagramm nur Training
7 von 41
Christian Herta
Bias-Variance
Testdaten
nach [Abu]
Bias-Varianz Analyse
Lern Kurven
Tagetfunktion und Rauschen
Overtting-Undertting
Outline
8 von 41
1
Tagetfunktion und Rauschen
2
Overtting-Undertting
3
Testdaten
4
Bias-Varianz Analyse
5
Lern Kurven
Christian Herta
Bias-Variance
Testdaten
Bias-Varianz Analyse
Lern Kurven
Tagetfunktion und Rauschen
Overtting-Undertting
Testdaten
Bias-Varianz Analyse
Lern Kurven
Beispiel: Undertting-Overtting: Polynominal Regression
9 von 41
Christian Herta
Bias-Variance
Tagetfunktion und Rauschen
Overtting-Undertting
Testdaten
Logistic Regression: Undertting
10 von 41
Christian Herta
Bias-Variance
Bias-Varianz Analyse
Lern Kurven
Tagetfunktion und Rauschen
Overtting-Undertting
Testdaten
Logistic Regression: Overtting
Logistische Regression mit hochgradigem Polynom:
hΘ (~x ) = g (Θ0 + Θ1 x1 + Θ2 x1 x2 + Θ3 x22 + Θ4 x13 + Θ5 x12 x2 + . . . )
11 von 41
Christian Herta
Bias-Variance
Bias-Varianz Analyse
Lern Kurven
Tagetfunktion und Rauschen
Overtting-Undertting
Logistic Regression: Passend
12 von 41
Christian Herta
Bias-Variance
Testdaten
Bias-Varianz Analyse
Lern Kurven
Tagetfunktion und Rauschen
Overtting-Undertting
Testdaten
Bias-Varianz Analyse
Lern Kurven
Ziel des Lernens - Hypothesenmenge H
Ziel des Lernens: Finden einer geeigneten Hypothese
h(~x ) ≈ t (~x )
h
wird aus einer Menge von Hypothesen
H
durch die
Trainingsprozedur bestimmt.
Univariate Lineare Regression als Beispiel zur Verdeutlichung der Bedeutung von H:
H ist die Menge aller (unendlich vielen) Hypothesen Θ ( ) = Θ0 + Θ1 , die sich durch Variation der
ergeben.
h x
Aus der Menge von möglichen Hypothesen
Trainingsdaten eine bestimmte Hypothese
der Kostenfunktion aus, d.h.
13 von 41
Christian Herta
H
wird durch Lernen der Parameter
hΘnal (x) erhalten.
∀Θ : J (Θnal ) ≤ J (Θ)
Bias-Variance
x
Θ
Θ
mittels den
Diese zeichnet sich durch das Minimum
Tagetfunktion und Rauschen
Overtting-Undertting
Testdaten
Undertting
Ziel:
h(~x ) ≈ t (~x )
Was passiert beim Undertting?
14 von 41
Christian Herta
Bias-Variance
Bias-Varianz Analyse
Lern Kurven
Tagetfunktion und Rauschen
Overtting-Undertting
Testdaten
Bias-Varianz Analyse
Lern Kurven
Undertting
Ziel:
h(~x ) ≈ t (~x )
Was passiert beim Undertting?
Das Ziel kann im
Undertting-Fall
nicht (ausreichend) erreicht
werden, da keine der Hypothesen aus
H
ist.
d.h.:
14 von 41
H
ist zu wenig mächtig (komplex).
Christian Herta
Bias-Variance
ähnlich der Targetfunktion
Tagetfunktion und Rauschen
Overtting-Undertting
Testdaten
Overtting
Ziel:
h(~x ) ≈ t (~x )
Was passiert beim Overtting?
15 von 41
Christian Herta
Bias-Variance
Bias-Varianz Analyse
Lern Kurven
Tagetfunktion und Rauschen
Overtting-Undertting
Testdaten
Bias-Varianz Analyse
Lern Kurven
Overtting
Ziel:
h(~x ) ≈ t (~x )
Was passiert beim Overtting?
Die durch das Lernen gefundene Hypothese
h
aus
H
passt sich zu
sehr an die spezielle Ausprägung der Trainingsdaten an.
Da
15 von 41
H
sehr mächtig (komplex) ist.
Christian Herta
Bias-Variance
Tagetfunktion und Rauschen
Overtting-Undertting
Outline
1
Tagetfunktion und Rauschen
2
Overtting-Undertting
3
Testdaten
4
Bias-Varianz Analyse
5
Lern Kurven
16 von 41
Christian Herta
Bias-Variance
Testdaten
Bias-Varianz Analyse
Lern Kurven
Tagetfunktion und Rauschen
Overtting-Undertting
Testdaten
Bias-Varianz Analyse
Lern Kurven
Trainingsfehler
Bisher nur Trainingsmenge
(durchschnittlichen)
Loss
D
und Berechung des
der Traingsdaten (bisher genannt
Kostenfunktion):
Trainingsfehler (
train error, in-sample error)
trainingsfehler = Ein (h) =
1
m
m
X
loss (h(~x (i ) ), y (i ) )
i =0
Der Trainingsfehler wurde bisher als Funktion der Parameter J (Θ) für ein
spezisches Modell (Hypothesenmenge) benutzt, um die Parameter
Θ
aus den Daten zu lernen. Jetzt Ein (h) als Funktion der Hypothesen h,
da verschiedene Modelle benutzt werden können.
17 von 41
Christian Herta
Bias-Variance
Tagetfunktion und Rauschen
Overtting-Undertting
Testdaten
Bias-Varianz Analyse
Lern Kurven
Trainingsfehler als Kriterium nicht ausreichend
Ein niedriger Trainingsfehler impliziert nicht automatisch ein gutes
Overtting!),
Modell (
d.h.
h(~x ) ≈ t (~x )
ist nicht garantiert.
h(~x )
kann eine schlechte Prognose abgeben für
Trainingsmenge nicht enthalten sind.
18 von 41
Christian Herta
Bias-Variance
~x -Werte,
die in der
Tagetfunktion und Rauschen
Overtting-Undertting
Testdaten
Bias-Varianz Analyse
Lern Kurven
Out-of-sample error / expected risk
Der
out-of-sample error
ist der durchschnittliche
typischen weiteren Daten (p (x0 , y 0 )
hinreichend groÿ)
Loss,
der sich auf
ergeben würde, die
nicht zum Training verwendet worden sind:
Eout (h) = Ex ,y [loss (h(x), y )] =
Z
X ×Y
19 von 41
Christian Herta
Bias-Variance
loss (h(x), y )dp (x, y )
Tagetfunktion und Rauschen
Overtting-Undertting
Testdaten
Bias-Varianz Analyse
Lern Kurven
Generaliserungsfehler
Der Generalisierungsfehler einer Hypothese
h
kann folgendermaÿen
deniert werden (nach [Abu]):
|Eout (h) − Ein (h)|
Also der Fehler, die sich durch die Anpassung von
h
mittels
Trainings an die spezielle Ausprägung der Trainingsdaten
Dtrain
ergibt, im Vergleich zu dem zu erwarteten Vorhersage-Fehler.
Zwei Gründe für die Dierenz:
auch ohne Rauschen sind zu wenig Daten in
Lernalgorithmus
A
D,
so dass der
eine wenig generalisierende Hypothese
h
ndet.
zu wenig Trainingsdaten, so dass auch das Rauschen gelernt
wird.
20 von 41
Christian Herta
Bias-Variance
Tagetfunktion und Rauschen
Overtting-Undertting
Testdaten
Bias-Varianz Analyse
Lern Kurven
Generaliserungsfehler (cont.)
In der Literatur ndet man unter dem Begri Generalisierungsfehler
verschiedene Denitionen, wie z.B.:
Der Generalisierungsfehler einer Hypothese
ist
Dtrain
h gelernt mit einem Algorithmus A und den Trainingsdaten
R (A, Dtrain ) = Eout (h) −
Also die Abweichung in
Eout
von
inf
h0 ∈H
Eout (h0 )
h vom besten h0 .
oder
manchmal wird auch nur
21 von 41
Eout (h) als Generalisierungsfehler bezeichnet.
Christian Herta
Bias-Variance
Tagetfunktion und Rauschen
Overtting-Undertting
Testdaten
Bias-Varianz Analyse
Lern Kurven
Testdaten
Out-of-sample error Eout
Einführung von
das Modell
ist nicht direkt zugänglich.
mtest gelabelte
h(~x )
Testdaten, um zu überprüfen, ob
auch Werte gut vorhersagt, die nicht beim
Training verwendet wurden:
testdaten = Dtest = {(x~0
22 von 41
Christian Herta
(0)
, y0
Bias-Variance
(0)
(1)
(mtest ) 0 (mtest )
(1)
), (x~0 , y 0 ), . . . , (x~0
,y
)}
Tagetfunktion und Rauschen
Overtting-Undertting
Testdaten
Bias-Varianz Analyse
Testfehler
Der Testfehler ist der durchschnittlicher
testfehler =
1
m0
m
test
X
Loss
der Testdaten:
(i )
loss (h(x~0 ), y 0 (i ) )
i =0
Testfehler dient als Schätzung des
out-of-sample error Eout (h)
testfehler ≈ EX ,Y [loss (h(x), y )] = Eout (h)
23 von 41
Christian Herta
Bias-Variance
Lern Kurven
Tagetfunktion und Rauschen
Overtting-Undertting
Modell Komplexität (model
Informell: Die Komplexität von
Testdaten
Bias-Varianz Analyse
complexity, capacity
H
)
(des Modells) beschreibt wieviele
unterschiedlich komplizierte Funktionen durch
H
abgedeckt werden.
Maÿe um die Modell Komplexität zu beschreiben:
VC-Dimension dvc (VapnikChervonenkis Dimension)
Rademacher Komplexität
24 von 41
Christian Herta
Bias-Variance
Lern Kurven
Tagetfunktion und Rauschen
Overtting-Undertting
Testdaten
Bias-Varianz Analyse
Lern Kurven
Einuss der Komplexität
Komplexeres Hypothesenset
H⇒
gröÿere Wahrscheinlichkeit
die Targetfunktion darstellen zu können, d.h. die
Targetfunktion ist in
H
oder nahe
Weniger komplexes Hypothesenset
H.
H⇒
gröÿere
Wahrscheinlichkeit, dass der Generaliserungsfehler niedriger ist.
25 von 41
Christian Herta
Bias-Variance
Tagetfunktion und Rauschen
Overtting-Undertting
Testdaten
Bias-Varianz Analyse
Schranke für Generalisierung
aus der Theorie ergibt sich mit Wahrscheinlichkeit 1
Eout (h) ≤ Ein (h) + Ω(m, H, δ)
mit der VC-Dimension
dVC
als Maÿ für die Komplexität
v
u
u
u
Ω(m, H, δ) ≤ t
8
m

ln 
m)dVC
4((2
+ 1)
δ


d.h. Lernen (Generalisierung) ist möglich, wenn
die Modell-Komplexität nicht zu hoch ist und
genügend Trainingsdaten vorhanden sind.
26 von 41
Christian Herta
Bias-Variance
− δ:
Lern Kurven
Tagetfunktion und Rauschen
Overtting-Undertting
Testdaten
Komplexität und erwartete Fehler
Quelle: [Abu]
27 von 41
Christian Herta
Bias-Variance
Bias-Varianz Analyse
Lern Kurven
Tagetfunktion und Rauschen
Overtting-Undertting
Outline
1
Tagetfunktion und Rauschen
2
Overtting-Undertting
3
Testdaten
4
Bias-Varianz Analyse
5
Lern Kurven
28 von 41
Christian Herta
Bias-Variance
Testdaten
Bias-Varianz Analyse
Lern Kurven
Tagetfunktion und Rauschen
Overtting-Undertting
Testdaten
Bias-Varianz Analyse
Lern Kurven
Trainingsmenge, Hypothesenmenge und Hypothese
Für quadratischem
Loss
und Regression ist die Bias-Variance
Dekomposition einfach. Analoges gilt aber auch für Klassikation
und andere
Loss -Funktionen.
Lernen der Hypothesenmenge (Modell)
D
führt zu Hypothese
h(D)
Abhängigkeit von den Traingsdaten
29 von 41
Christian Herta
Bias-Variance
H
mit den Trainingsdaten
(hochgestelltes
D).
D
zeigt die
Tagetfunktion und Rauschen
Overtting-Undertting
Erwartungswert des
Testdaten
Bias-Varianz Analyse
out-of-sample errors
Ausgangspunkt der Bias-Varianz Analyse ist der Erwartungswert
des
out-of-sample errors:
ED Eout (hD (x))
mit
hD : gelernte Hypothese mit den Traingsdaten D
Eout (hD ): out-of-sample error für die gelernete Hypothese
ED : Erwartungswert bezüglich der Trainingsdaten.
30 von 41
Christian Herta
Bias-Variance
Lern Kurven
Tagetfunktion und Rauschen
Overtting-Undertting
Testdaten
Bias-Varianz Analyse
Lern Kurven
Bias-Varianz Analyse
ohne Rauschen in den Daten und quadratischem Fehler:
ED
Eout (h
D
h
h
) = ED EX
h
h
= EX ED
h
D
(x) − t (x)
2 ii
h
D
(x) − t (x)
2 ii
mit der durchschnittlichen Hypothese
h̃(x)
= ED
h
D
(x)
ergibt sich:
ED
Eout (h
D
(x)) = EX ED
= variance
h
D
2 2 (x) − h̃(x)
+EX h̃(x) − t (x)
+bias 2
Falls die Daten verrauscht sind kommt ein dritter Term, der irreduzierbare Fehler
(siehe z.B. [Has])
31 von 41
Christian Herta
Bias-Variance
EX [2 ]
, hinzu.
Tagetfunktion und Rauschen
Overtting-Undertting
Testdaten
Bias-Varianz Analyse
Lern Kurven
Interpretation: Bias2
Ex
h̃(x) − t (x)
2 Quadratische Abweichung der durchschnittlichen Hypothese
der Targetfunktion
32 von 41
Christian Herta
t↔
Undertting
Bias-Variance
h̃
von
Tagetfunktion und Rauschen
Overtting-Undertting
Testdaten
Bias-Varianz Analyse
Interpretation: Varianz
Ex ED
2 h (x) − h̃(x)
D
Durchschnittliche quadratische Abweichung der gelernten
hD }
Hypothesen {
von der durchschnittlichen Hypothese
Overtting
33 von 41
Christian Herta
Bias-Variance
h̃ ↔
Lern Kurven
Tagetfunktion und Rauschen
Overtting-Undertting
Testdaten
Bias-Varianz Analyse
Interpretation: Varianz
Veranschaulichung am Beispiel: 2 Datenpunkte und Fitten von
Sinus mit Konstanter und Geraden.
siehe Folien Seite 10 .
Quelle:[Abu]
34 von 41
Christian Herta
Bias-Variance
Lern Kurven
Tagetfunktion und Rauschen
Overtting-Undertting
Outline
1
Tagetfunktion und Rauschen
2
Overtting-Undertting
3
Testdaten
4
Bias-Varianz Analyse
5
Lern Kurven
35 von 41
Christian Herta
Bias-Variance
Testdaten
Bias-Varianz Analyse
Lern Kurven
Tagetfunktion und Rauschen
Overtting-Undertting
Testdaten
Bias-Varianz Analyse
Ziel
Ziel:
h(~x ) ≈ t (~x )
gegeben wenn
Eout
bzw der
testfehler
klein ist.
Erfüllt, falls folgende beide Bedingungen erfüllt sind:
Ein (Trainingsfehler) klein, d.h. kein Undertting.
|Eout − Ein | klein
bzw. testfehler ≈ trainingsfehler , d.h. kein Overtting.
36 von 41
Christian Herta
Bias-Variance
Lern Kurven
Tagetfunktion und Rauschen
Overtting-Undertting
Testdaten
Bias-Varianz Analyse
Lern Kurve
Wie kann man erkennen, dass das Model passend ist?
Beachte passend bezieht sich auf die Einussgröÿen:
Anzahl der Datenpunkte
m
der Trainingsdaten
Komplexität der Hypothesenmenge (Modell)
Stärke des stochastischen Rauschen
Targetfunktion
37 von 41
Christian Herta
t,
Dtrain
H
im Vergleich zur
d.h. das Signal-Rausch Verhältnis.
Bias-Variance
Lern Kurven
Tagetfunktion und Rauschen
Overtting-Undertting
Lern Kurve: Einfaches Modell
38 von 41
Christian Herta
Bias-Variance
Testdaten
Bias-Varianz Analyse
Lern Kurven
Tagetfunktion und Rauschen
Overtting-Undertting
Lern Kurve: Komplexes Modell
39 von 41
Christian Herta
Bias-Variance
Testdaten
Bias-Varianz Analyse
Lern Kurven
Tagetfunktion und Rauschen
Overtting-Undertting
Testdaten
Lern-Diagramm für überwachtes Lernen
40 von 41
Christian Herta
Bias-Variance
Bias-Varianz Analyse
nach [Abu]
Lern Kurven
Tagetfunktion und Rauschen
Overtting-Undertting
Testdaten
Bias-Varianz Analyse
Lern Kurven
Literaturangabe
Andrew Ng: Machine Learning (Cousera Online Kurs), 2013
[Has] Trevor Hastie,Robert Tibshirani, Jerome Friedman: The
Elements of Statistical Learning, insb.: Kapitel 7, Springer
Verlag 2009
[Abu] Yaser Abu-Mostafa: Learning from Data, Caltech
Machine Learning bzw.
Yaser Abu-Mostafa et all.: Learning from Data, AMLBook
2012
41 von 41
Christian Herta
Bias-Variance