Folien - Institut für Statistik

Transcrição

Folien - Institut für Statistik
Messen im psychologischen
Kontext I
Testentwicklung, Entwicklung von
Items, Trennschärfeanalyse und
Normierung
Messen im psychologischen Kontext I
1.
2.
3.
4.
5.
6.
Psychologische Tests
Die Klassische Testtheorie
Die zehn Stufen der Testentwicklung
Auswahl von Testaufgaben
Itemanalyse
Normierung
1.Psychologische Tests
•
•
•
Psychologische Tests sind Verfahren zur Erfassung
psychischer Eigenschaften oder Merkmalen von Personen.
Grundlage psychologischer Tests sind die Klassische
Testtheorie oder die Probabilistische Testtheorie.
Testkategorien:
– Leistungstests
(z. B. Entwicklungstests, Intelligenztests, Schultests)
– Psychometrische Persönlichkeitstests
(z.B. Persönlichkeitsstrukturtests, Einstellungstests,
Interessentests)
– Persönlichkeitsentfaltungsverfahren
(z.B. Formdeuteverfahren, verbal-thematische Verfahren)
1. Psychologische Tests
PISA Studie (Schulleistungstest)
Abbildung 1: PISA 2003 Naturw issenschaften
(Quelle: IPN )
1. Psychologische Tests
IQ Test (Intelligenztest)
Abbildung 2: IQ-Test
(Quelle: Süddeutsche IQ Test)
1. Psychologische Tests
Big Five/NEO FFI (Persönlichkeitstest)
Abbildung 3: Big Fiv e Persönlichkeitstest
(Quelle: outofservice.com)
1. Psychologische Tests
Rorschach Test (Formdeuteverfahren)
Abbildung 4: Ein Item aus dem Rorschach Test
(Quelle: Rost 2004)
1. Psychologische Tests
Thematic Apperception Test (Verbal-thematische Verfahren)
Abbildung 5: Ein Item aus dem thematischen Apperzeptionstest
(Quelle: Rost 2004)
2. Klassische Testtheorie
•
•
Derzeit Grundlage der meisten psychologischen Testverfahren
(95%)
Gründe für ihren Erfolg:
– Einfache Anwendbarkeit
– Tests die nach der Klassischen Testtheorie konzipiert wurden haben
sich bewährt
•
Ausgangspunkt:
– Testergebnisse einer Person variieren zwischen verschiedenen
Messzeitpunkten
– Gründe für Ergebnisveränderung:
> systematische Einflüsse wie Übungs- und Transfereffekte
> unsystematische Einflüsse wie Motivation und Konzentration
•
Wichtig: Fehlerbegriff in der Klassischen Testtheorie bezieht sich
nur auf unsystematische Einflüsse.
2. Klassische Testtheorie
2.1 Annahmen der Klassischen Testtheorie
•
Voraussetzungen
– Getestete Person wird zufällig aus einer Population entnommen
– Testergebnis einer Person variiert zufallsabhängig
– Person kann zu verschiedenen Zeitpunkten getestet werden und
erhält dabei jeweils unterschiedliche Werte
– Beobachtete Messwerte besitzen endliche Varianzen
•
Existenzaxiom:
M(X) = T
X: beobachteter Wert
T: wahrer Wert
– Es existiert ein wahrer Wert der definiert ist als Mittelwert über
unendlich viele beobachtete Testergebnisse einer Person.
(Erwartungswert).
2. Klassische Testtheorie
2.2 Annahmen der Klassischen Testtheorie
•
Verknüpfungsaxiom:
X=T+E
X: beobachteter Wert
T: wahrer Wert
E: Messfehler
– Der beobachtete Messwert einer Person in einem Test setzt sich
aus dem konstanten wahren Wert einer Person und einem
Messfehler zusammen.
– Der Messfehler repräsentiert alle unkontrollierten und
unsystematischen Störeinflüsse.
2. Klassische Testtheorie
2.1 Annahmen der Klassischen Testtheorie
•
Folgerungen und weitere Annahmen:
– Erwartungswert des Fehlers ist null:
M(E)I = 0
Mittelwert des Messfehlers über unendlich viele Messungen
einer Person(I) ist null.
M(E)P = 0
Mittelwert des Messfehlers einer Messung einer
beliebigen Population oder Teilpopulation(P) ist null.
– Unkorreliertheit
r(E,T) = 0
Es besteht kein Zusammenhang zwischen dem Messfehler
und dem wahren Wert einer Person oder in einer Population
oder Teilpopulation.
r(EA,EB) = 0
Der Messfehler eines Tests A weist keinen Zusammenhang
mit dem Messfehler eines Tests B auf.
r(EA,TB) = 0
Die Messfehler eines Test A weisen keinen Zusammenhang
mit dem wahren Wert aus einem Test B auf
2. Klassische Testtheorie
2.2 Schwächen der klassischen Testtheorie
•
Klassische Testtheorie ist eine reine Messfehlertheorie:
– Es wird keine Verbindung zwischen Fähigkeit oder Eigenschaft
und der Itembeantwortung hergestellt.
– Beschäftigt sich nur mit den Komponenten der Messwerte
•
•
•
Einige Annahmen nicht überprüfbar; sie ergeben sich logisch
aus Existenz- und Verknüpfungsaxiom. (z.B. M(E)I = 0)
Einige Annahmen In der psychologischen Praxis nur schwer
haltbar. (z.B. alle Einflüsse Zufallseinflüsse)
Testwerte stichprobenabhängig: je nach Test und
Referenzgruppe ergibt sich andere Bedeutung der individuellen
Leistung
3. Die zehn Stufen der Testentwicklung
1. Anforderungsanalyse und Problemstellung
2. Planung und Literatursuche
3. Eingrenzung des Merkmals und Arbeitsdefinition
4. Testentwurf
5. Überprüfung des Testentwurfs
6. Verteilungsanalyse
7. Itemanalyse und Itemselektion
8. Kriterienkontrolle
9. Revision des Tests
10. Eichung (Normierung)
4. Auswahl von Testaufgaben
4.1 Die gebundene Aufgabenbeantwortung
•
•
•
Konkrete Lösungsmöglichkeiten oder Antwortalternativen sind
vorgegeben.
Kein Freiraum für eigene Antworten
Arten gebundener Aufgabenformate:
–
–
–
–
–
Ratingskala
Richtig-Falsch-Aufgaben
Mehrfach Wahlaufgaben
Zuordnungsaufgaben
Umordnungsaufgaben
4.1 Gebundene Aufgabenbeantwortung
Ratingskala
•
•
•
Bestehet aus mehr als zwei Antwortkategorien (z.B. Abstufungen von
„sehr gut“ bis „sehr schlecht“)
Anzahl der Abstufungen beliebig; üblich sind fünf Antwortkategorien
Unterscheide unipolare und bipolare (Extremausprägungen durch
gegensätzliche Begriffe gekennzeichnet) Fragebogenitems.
Beispiel 1 - unipolares Fragebogenitem
(Quelle: Bühner 2008)
4.1 Gebundene Aufgabenbeantwortung
Ratingskala
Beispiel 2 - bipolares Fragebogenitem
(Quelle: Bühner 2008)
•
•
Vorteile: sehr differenzierte Informationen über Ausprägung eines
Merkmals möglich, Durchführung und Auswertung ökonomisch
Nachteile: subjektiv unterschiedliche Auffassung der Abstufungen. (z.B.
was bedeutet „sehr häufig“), Antworttendenzen (z.B. Tendenz zu
mittleren Urteilen)
4.1 Gebundene Aufgabenbeantwortung
Richtig-Falsch-Aufgaben
•
•
Bestehen aus nur zwei Antwortmöglichkeiten
Kommen als Leistungstestfragen(Richtig-Falsch-Aufgaben) oder in
Persönlichkeitstests (Ja-Nein-Fragen) vor.
Beispiel 3 - Ja-Nein-Fragebogenitem aus Persönlichkeitstest
(Quelle: Bühner 2008)
•
•
Vorteile: kurze Bearbeitungs-, Auswertungs- und Lösungszeit,
Testinstruktion leicht verständlich
Nachteile: eindeutige Formulierung der Fragen notwendig,
Prozentsatz an Zufallslösungen ist hoch, wenig differenzierte
Informationen
4.1 Gebundene Aufgabenbeantwortung
Mehrfach-Wahlaufgabe
•
Haben mehr als zwei Antwortalternativen (z.B. Multiple-Choice-Items)
Beispiel 4 - Mehrfach-Wahlaufgabe aus Intelligenztest
(Quelle: Bühner 2008)
•
•
Vorteile: mehr Antwortalternativen verringern Wahrscheinlichkeit für
Zufallslösungen, Durchführung und Auswertung ökonomisch
Nachteile: Antwortalternativen finden eventuell schwierig,
Antwortalternativen können Hinweise auf die richtige Lösung geben,
nur Wiedererkennen von Wissen und keine Reproduktion
4.1 Gebundene Aufgabenbeantwortung
Zuordnungsaufgaben
•
Hier werden Zeichen oder Inhalte anderen Zeichen oder Inhalten
zugeordnet.
Beispiel 5 - Zuordnungsaufgabe aus Intelligenztest
(Quelle: Bühner 2008)
•
•
Vorteile: Durchführung und Auswertung ökonomisch, Zufallslösungen
unproblematisch
Nachteile: schwierig Antwortalternativen zu finden die
gleichwahrscheinlich gewählt werden, nur Wiedererkennen von
Material und keine Reproduktion
4.1 Gebundene Aufgabenbeantwortung
Umordnungsaufgaben
•
Bei Umordnungsaufgaben müssen vorgegebene Elemente der
Reihenfolge nach sortiert werden.
Beispiel 6 - Umordnungsaufgabe
(Quelle: Bühner 2008)
4.1 Gebundene Aufgabenbeantwortung
Allgemeine Probleme gebundener Itemformate
•
•
•
Schwierige Anwendbarkeit für manche Konstrukte (z.B. Erfassung von
Kreativität, sprachlichen Fertigkeiten)
Zufallslösungen durch Raten
Absichtliches Verfälschen:
–
–
–
–
•
•
•
Simulation: Vortäuschen von Verhalten oder Symptomen
Dissimulation: Verschleiern oder Verbergen von Verhalten oder Symptomen
Grund: Soziale Erwünschtheit
Folge: deutliche Verzerrung der Skalenwerte.
Antworttendenzen können Itemkennwerte verzerren (Ja-sageTendenzen, Tendenz zu mittleren oder extremen Urteilen )
Motivation des Probanden: Je komplexer Items, je schwerer Items und
je länger Test, desto wahrscheinlicher sinkt Motivation des Probanden
Reihenfolgeeffekte: Abhängig von der Position kann Antwort auf ein
Testitem zwischen Probanden variieren.
4. Auswahl von Testaufgaben
4.2 Freie Aufgabenbeantwortung
•
•
•
Keine festen Kategorien für die Aufgabenbeantwortung
vorgegeben
Aufgaben sind frei oder teilstrukturiert (Teile der Lösung sind
vorgegeben)
Arten freier Aufgabenformate:
– Ergänzungsaufgabe
– Kurzaufsatz
4.2 Freie Aufgabenbeantwortung
Ergänzungsaufgabe
•
Ergänzungsaufgabe ist teilstrukturiert
Beispiel 7 - Offene Fragen
(Quelle: Bühner 2008)
•
•
Vorteile: Zufallslösungen kaum möglich, Konstruktion komplexer
Aufgaben möglich
Nachteile: nur Reproduktion von Wissen, größerer Zeitaufwand,
eingeschränkte Auswertungsobjektivität wenn mehrere Begriffe
passen
4.2 Freie Aufgabenbeantwortung
Kurzaufsätze
•
Auf Fragen müssen kurze, freie Antworten gegeben werden.
Beispiel 8 - Kurzaufsatz
(Quelle: Bühner 2008)
•
•
Vorteile: Zufallslösungen nicht möglich, freie Reproduktion von
Wissen möglich
Nachteile: Eingeschränkte Auswertungsobjektivität da Festlegen
eindeutiger Auswertungskriterien schwierig
4. Auswahl von Testaufgaben
4.3 Regeln zur Aufgabenformulierung
•
Itempolung:
– negative Formulierung um Ja-sage-Tendenz entgegenzuwirken
– Verständlichkeitsschwierigkeiten bei doppelter Verneinung
– längere Aufgabenbearbeitung
Beispiel 9:
(Quelle: Bühner 2008)
4. Auswahl von Testaufgaben
4.3 Regeln zur Aufgabenformulierung
•
Mehrdeutige Begriffe vermeiden (Wort positiv oder negativ gemeint?)
Beispiel 10:
(Quelle: Bühner 2008)
•
Formulierungen verwenden die Zielgruppe (z.B. Kinder) geläufig sind.
Beispiel 11:
(Quelle: Bühner 2008)
4. Auswahl von Testaufgaben
4.3 Regeln zur Aufgabenformulierung
•
Nur ein sachlicher Gedanke
Beispiel 12:
(Quelle: Bühner 2008)
•
Verallgemeinerungen („alle“, „keiner“) vermeiden
Beispiel 13:
(Quelle: Bühner 2008)
4. Auswahl von Testaufgaben
4.3 Regeln zur Aufgabenformulierung
•
Abkürzungen vermeiden
Beispiel 14:
(Quelle: Bühner 2008)
•
Zeitrahmen eindeutig definieren
Beispiel 15:
(Quelle: Bühner 2008)
5. Itemanalyse
5.1 Ermittlung der Itemrohwerte
•
•
•
•
•
Probandenrohwert: Wert einer Testperson bei der Beantwortung
eines einzelnen Items.
Itemmittelwert: über Testperson summierte oder gemittelte
Probandenrohwerte
Skalen-/Untertestmittelwerte: Probandenrohwerte über die Probanden
für bestimmte Anzahl von inhaltsähnlichen Items summiert oder
gemittelt.
Voraussetzung: intervallskalierte Skalen
Itemrohwert mit Zufallskorrektur (Raten berücksichtigt):
– Anzahl der Antwortkategorien berücksichtigt.
– Anwendungsbereich: Leistungstests
Mehrfachwahlaufgaben:
Xi = Ri "
!
Fi
m"1
Richtig-Falsch-Aufgaben:
Xi = Ri " Fi
!
m: Anzahl der Wahlmöglichkeiten
Ri: Anzahl der Richtigen Antworten
Fi: Anzahl der Falschen Antworten
5. Itemanalyse
5.2 Schwierigkeitsanalyse
•
Messung der Schwierigkeit eines Items
•
Schwierigkeitsindex ohne Korrektur:
P=
!
NR
•100
N
NR: Anzahl der Probanden die Aufgabe richtig gelöst haben
N: Anzahl aller Probanden
– für Schwierigkeitsanalyse bei Persönlichkeitstests (kein Raten)
– Begriff „Schwierigkeit“inhaltlich schwer anwendbar; es wird
lediglich beschrieben wie viele Probanden Item gelöst haben.
– Hoher Prozentwert bedeutet „leichte“, geringer „schwere“ Aufgabe
5. Itemanalyse
5.2 Schwierigkeitsanalyse
•
Schwierigkeitsindex mit Zufallskorrektur:
PZK =
!
NF
m " 1 •100
N
NR "
NR: Anzahl der Probanden die Aufgabe richtig gelöst haben
NF: Anzahl der Probanden die Aufgabe falsch gelöst haben
m: Anzahl der Wahlmöglichkeiten
– für Leistungstests bei denen es eine Richtige Lösung gibt.
– Je kleiner Index, desto schwerer ist das Item und desto mehr
Probanden haben falsch geantwortet.
– Je mehr Antwortkategorien es gibt, desto weniger wahrscheinlich
ist Zufallslösung und Index wird weniger stark nach unten
korrigiert.
5. Itemanalyse
5.2 Schwierigkeitsanalyse
•
Schwierigkeitsindex mit Inangriffnahmekorrektur:
PIK =
NR
•100
NB
NR: Anzahl der Probanden die Aufgabe richtig gelöst haben
NB: Anzahl der Probanden die die Aufgabe bearbeitet haben
– für zeitbegrenzten Leistungstests, bei denen Probanden aufgrund
der Zeitbegrenzung nicht alle Aufgaben bearbeiten können.
!
•
Schwierigkeitsindex mit Zufalls- und Inangriffnahmekorrektur:
N
NR " F
m " 1 •100
PZK,IK =
NB
!
NR: Anzahl der Probanden die Aufgabe richtig gelöst haben
NF: Anzahl der Probanden die Aufgabe falsch gelöst haben
NB: Anzahl der Probanden die die Aufgabe bearbeitet haben
m: Anzahl der Wahlmöglichkeiten
5. Itemanalyse
5.2 Schwierigkeitsanalyse
•
•
•
Mit Zufallskorrektur kann Schwierigkeitsindex negativ werden
(Ratewahrscheinlichkeit wird überschätzt ); negativer
Schwierigkeitsindex nicht definiert; Raten sollte schon durch
angemessene Konstruktion der Items zu unterbunden werden.
(Antwortformate)
Items mit mittlerer Schwierigkeit für Test auswählen; mittlerer
Schwierigkeitsindex erhöht die Wahrscheinlichkeit für hohe
Streuungen der Items (Binomialverteilung); hohe Streuung garantiert
große Differenzierbarkeit zwischen den Probanden
Allerdings auch schwere Items für den Test auswählen damit
Differenzierung der Probanden an den Randbereichen erreicht wird.
5. Itemanalyse
5.3 Trennschärfenanalyse
•
•
Trennschärfe: korrigierte Korrelation eines Items mit einer Skala
Part-whole-Korrektur:
– betreffendes Item aus Skala ausschließen
– Grund: sonst Überschätzung der Trennschärfe (partielle Eigenkorrelation)
– Je größer Itemanzahl einer Skala, je homogener Skala, desto weniger
ändern sich Trennschärfen durch Part-whole-Korrektur
•
Negative Trennschärfen (ungeeignet für Testkonstruktion)
– Item korreliert entgegen Erwartungen negativ mit der Skala (Item sollte
von Probanden mit hohem Skalenwert gelöst werden wird aber von
Probanden mit niedrigem Skalenwert gelöst)
– Bei Verwendung negativ gepolte Items (vor Trennschärfenanalyse
umkehren)
•
Eigen- und Fremdtrennschärfen:
– Eigentrennschärfe: Korrelation zwischen Item und Skala wobei beide das
gleiche Kriterium messen
– Fremdtrennschärfe: Korrelation von Item mit Skalen oder Testwerten
anderer Fragebögen oder Kriterien
5. Itemanalyse
5.3 Trennschärfenanalyse
•
Trennschärfe: Punkt-Moment-Korrelation (part-whole-korrigiert)
– Trennschärfen zwischen intervallskalierten Items und Skalen
rj(t- j) =
rjt S t " S j
S 2t + S 2j - 2rjt S t S j
rj: Korrelation des Items j mit der Skala t
Sj: Standardabweichung des Items j
St: Standardabweichung der Skala t
– Beispiel:
!
Item: „Ich bin ein offener Mensch.“ trifft zu 1 2 3 4 5 trifft nicht zu
Skala: „Extraversion“ (intervallskaliert)
positive Trennschärfe hier: je mehr Probanden Item zustimmen, desto
höher fällt ihr Skalenwert „Extraversion“ ohne das entsprechende Item aus.
– Extremwerte stellen großes Problem dar;
vor Trennschärfenanalyse Ausreißer identifizieren und entfernen
5. Itemanalyse
5.3 Trennschärfenanalyse
•
Trennschärfe: Punktbiseriale Korrelation (part-whole-korrigiert)
– Trennschärfen zwischen dichotomen Items und intervallskalierten
Skalen
rj(t- j) =
rjt S t " p jq j
S 2t +p jq j - 2rjt S t p jq j
rjt: Korrelation des Items j mit der Skala t
pj: Schwierigkeitsindex des Items j
qj: 1 - pj
St: Standardabweichung der Skala t
– Beispiel:
!
Item: „Ich gehe gerne aus.“ Ja/Nein (dichotom)
Skala: „Extraversion“ (intervallskaliert)
positive Trennschärfe hier: Probanden die Item mit „Ja“ beantworten,
erzielen eher höhere Werte auf der Skala „Extraversion“ als Probanden
die mit „Nein“ antworten
6. Normierung
•
Problem:
– Erreichter Gesamtwert eins Test (z.B. Intelligenztest) stellt Leistung der
Testperson dar.
– Für Aussagen über Intelligenz der Person muss Ergebnis mit
Normstichprobe verglichen werden.
•
•
Normstichprobe: Repräsentative Stichprobe die bei Normierung des
Tests zur Verfügung steht.
Normierung des Tests:
– Normalverteilte Rohwerte in z-Werte umrechnen:
z=
X "M
S
– z-Werte mittels linearer Transformation (f(x)=ax+b) in andere Normskalen
transformieren; z.B. IQ-Wert:
!
IQ = 100 + 15z
Abbildung 6: Darstellung der gebräuchlichsten Normen
(Quelle: Bühner 2008)
6. Normierung
Erzeugung von Normwerten
•
T- und SW-Werte: zur Normierung von Leistungstests verwendet
SW = 100 + 10z
•
T = 50 + 10z
C-Werte und Stanine-Werte (standard nine)
C-Wert = 5 + 2z
– Stanine-Werte durch Reduzierung der C-Skala auf neun Werte oder
abgeleitet von Prozenträngen
– häufig als Norm für Persönlichkeitstests verwendet
•
Prozentränge (bei nicht normalverteilten Stichproben):
– Keine lineare Transformation der Itemrohwerte
– Kumulative Verteilung
– Nur Ordinalskalennivea
6. Normierung
Erzeugung von Normwerten
Abbildung 7: Umrechnung v on Prozenträngen in Stanine Werte
(Quelle: Bühner 2008)
Quellenverzeichnis
Literatur:
•
•
Bühner, Markus (2008): Einführung in die Test- und Fragebogenkonstruktion.München: Pearson Studium
Rost, Jürgen (2004): Lehrbuch Testtheorie - Testkonstruktion.Bern: Huber
Internetquellen:
•
Süddeutsche IQ Test
URL:http://iqtest.sueddeutsche.de/
[12.05.2009]
•
outofsevice.com
URL:http://de.outofservice.com/bigfive/
[12.05.2009]
•
IPN: Leibniz-Institut für die Pädagogik der Naturwissenschaften an der Universität Kiel
URL:http://pisa.ipn.uni-kiel.de/Aufgaben_Naturwissenschaft.pdf
[10.05.2009]