Folien - Institut für Statistik
Transcrição
Folien - Institut für Statistik
Messen im psychologischen Kontext I Testentwicklung, Entwicklung von Items, Trennschärfeanalyse und Normierung Messen im psychologischen Kontext I 1. 2. 3. 4. 5. 6. Psychologische Tests Die Klassische Testtheorie Die zehn Stufen der Testentwicklung Auswahl von Testaufgaben Itemanalyse Normierung 1.Psychologische Tests • • • Psychologische Tests sind Verfahren zur Erfassung psychischer Eigenschaften oder Merkmalen von Personen. Grundlage psychologischer Tests sind die Klassische Testtheorie oder die Probabilistische Testtheorie. Testkategorien: – Leistungstests (z. B. Entwicklungstests, Intelligenztests, Schultests) – Psychometrische Persönlichkeitstests (z.B. Persönlichkeitsstrukturtests, Einstellungstests, Interessentests) – Persönlichkeitsentfaltungsverfahren (z.B. Formdeuteverfahren, verbal-thematische Verfahren) 1. Psychologische Tests PISA Studie (Schulleistungstest) Abbildung 1: PISA 2003 Naturw issenschaften (Quelle: IPN ) 1. Psychologische Tests IQ Test (Intelligenztest) Abbildung 2: IQ-Test (Quelle: Süddeutsche IQ Test) 1. Psychologische Tests Big Five/NEO FFI (Persönlichkeitstest) Abbildung 3: Big Fiv e Persönlichkeitstest (Quelle: outofservice.com) 1. Psychologische Tests Rorschach Test (Formdeuteverfahren) Abbildung 4: Ein Item aus dem Rorschach Test (Quelle: Rost 2004) 1. Psychologische Tests Thematic Apperception Test (Verbal-thematische Verfahren) Abbildung 5: Ein Item aus dem thematischen Apperzeptionstest (Quelle: Rost 2004) 2. Klassische Testtheorie • • Derzeit Grundlage der meisten psychologischen Testverfahren (95%) Gründe für ihren Erfolg: – Einfache Anwendbarkeit – Tests die nach der Klassischen Testtheorie konzipiert wurden haben sich bewährt • Ausgangspunkt: – Testergebnisse einer Person variieren zwischen verschiedenen Messzeitpunkten – Gründe für Ergebnisveränderung: > systematische Einflüsse wie Übungs- und Transfereffekte > unsystematische Einflüsse wie Motivation und Konzentration • Wichtig: Fehlerbegriff in der Klassischen Testtheorie bezieht sich nur auf unsystematische Einflüsse. 2. Klassische Testtheorie 2.1 Annahmen der Klassischen Testtheorie • Voraussetzungen – Getestete Person wird zufällig aus einer Population entnommen – Testergebnis einer Person variiert zufallsabhängig – Person kann zu verschiedenen Zeitpunkten getestet werden und erhält dabei jeweils unterschiedliche Werte – Beobachtete Messwerte besitzen endliche Varianzen • Existenzaxiom: M(X) = T X: beobachteter Wert T: wahrer Wert – Es existiert ein wahrer Wert der definiert ist als Mittelwert über unendlich viele beobachtete Testergebnisse einer Person. (Erwartungswert). 2. Klassische Testtheorie 2.2 Annahmen der Klassischen Testtheorie • Verknüpfungsaxiom: X=T+E X: beobachteter Wert T: wahrer Wert E: Messfehler – Der beobachtete Messwert einer Person in einem Test setzt sich aus dem konstanten wahren Wert einer Person und einem Messfehler zusammen. – Der Messfehler repräsentiert alle unkontrollierten und unsystematischen Störeinflüsse. 2. Klassische Testtheorie 2.1 Annahmen der Klassischen Testtheorie • Folgerungen und weitere Annahmen: – Erwartungswert des Fehlers ist null: M(E)I = 0 Mittelwert des Messfehlers über unendlich viele Messungen einer Person(I) ist null. M(E)P = 0 Mittelwert des Messfehlers einer Messung einer beliebigen Population oder Teilpopulation(P) ist null. – Unkorreliertheit r(E,T) = 0 Es besteht kein Zusammenhang zwischen dem Messfehler und dem wahren Wert einer Person oder in einer Population oder Teilpopulation. r(EA,EB) = 0 Der Messfehler eines Tests A weist keinen Zusammenhang mit dem Messfehler eines Tests B auf. r(EA,TB) = 0 Die Messfehler eines Test A weisen keinen Zusammenhang mit dem wahren Wert aus einem Test B auf 2. Klassische Testtheorie 2.2 Schwächen der klassischen Testtheorie • Klassische Testtheorie ist eine reine Messfehlertheorie: – Es wird keine Verbindung zwischen Fähigkeit oder Eigenschaft und der Itembeantwortung hergestellt. – Beschäftigt sich nur mit den Komponenten der Messwerte • • • Einige Annahmen nicht überprüfbar; sie ergeben sich logisch aus Existenz- und Verknüpfungsaxiom. (z.B. M(E)I = 0) Einige Annahmen In der psychologischen Praxis nur schwer haltbar. (z.B. alle Einflüsse Zufallseinflüsse) Testwerte stichprobenabhängig: je nach Test und Referenzgruppe ergibt sich andere Bedeutung der individuellen Leistung 3. Die zehn Stufen der Testentwicklung 1. Anforderungsanalyse und Problemstellung 2. Planung und Literatursuche 3. Eingrenzung des Merkmals und Arbeitsdefinition 4. Testentwurf 5. Überprüfung des Testentwurfs 6. Verteilungsanalyse 7. Itemanalyse und Itemselektion 8. Kriterienkontrolle 9. Revision des Tests 10. Eichung (Normierung) 4. Auswahl von Testaufgaben 4.1 Die gebundene Aufgabenbeantwortung • • • Konkrete Lösungsmöglichkeiten oder Antwortalternativen sind vorgegeben. Kein Freiraum für eigene Antworten Arten gebundener Aufgabenformate: – – – – – Ratingskala Richtig-Falsch-Aufgaben Mehrfach Wahlaufgaben Zuordnungsaufgaben Umordnungsaufgaben 4.1 Gebundene Aufgabenbeantwortung Ratingskala • • • Bestehet aus mehr als zwei Antwortkategorien (z.B. Abstufungen von „sehr gut“ bis „sehr schlecht“) Anzahl der Abstufungen beliebig; üblich sind fünf Antwortkategorien Unterscheide unipolare und bipolare (Extremausprägungen durch gegensätzliche Begriffe gekennzeichnet) Fragebogenitems. Beispiel 1 - unipolares Fragebogenitem (Quelle: Bühner 2008) 4.1 Gebundene Aufgabenbeantwortung Ratingskala Beispiel 2 - bipolares Fragebogenitem (Quelle: Bühner 2008) • • Vorteile: sehr differenzierte Informationen über Ausprägung eines Merkmals möglich, Durchführung und Auswertung ökonomisch Nachteile: subjektiv unterschiedliche Auffassung der Abstufungen. (z.B. was bedeutet „sehr häufig“), Antworttendenzen (z.B. Tendenz zu mittleren Urteilen) 4.1 Gebundene Aufgabenbeantwortung Richtig-Falsch-Aufgaben • • Bestehen aus nur zwei Antwortmöglichkeiten Kommen als Leistungstestfragen(Richtig-Falsch-Aufgaben) oder in Persönlichkeitstests (Ja-Nein-Fragen) vor. Beispiel 3 - Ja-Nein-Fragebogenitem aus Persönlichkeitstest (Quelle: Bühner 2008) • • Vorteile: kurze Bearbeitungs-, Auswertungs- und Lösungszeit, Testinstruktion leicht verständlich Nachteile: eindeutige Formulierung der Fragen notwendig, Prozentsatz an Zufallslösungen ist hoch, wenig differenzierte Informationen 4.1 Gebundene Aufgabenbeantwortung Mehrfach-Wahlaufgabe • Haben mehr als zwei Antwortalternativen (z.B. Multiple-Choice-Items) Beispiel 4 - Mehrfach-Wahlaufgabe aus Intelligenztest (Quelle: Bühner 2008) • • Vorteile: mehr Antwortalternativen verringern Wahrscheinlichkeit für Zufallslösungen, Durchführung und Auswertung ökonomisch Nachteile: Antwortalternativen finden eventuell schwierig, Antwortalternativen können Hinweise auf die richtige Lösung geben, nur Wiedererkennen von Wissen und keine Reproduktion 4.1 Gebundene Aufgabenbeantwortung Zuordnungsaufgaben • Hier werden Zeichen oder Inhalte anderen Zeichen oder Inhalten zugeordnet. Beispiel 5 - Zuordnungsaufgabe aus Intelligenztest (Quelle: Bühner 2008) • • Vorteile: Durchführung und Auswertung ökonomisch, Zufallslösungen unproblematisch Nachteile: schwierig Antwortalternativen zu finden die gleichwahrscheinlich gewählt werden, nur Wiedererkennen von Material und keine Reproduktion 4.1 Gebundene Aufgabenbeantwortung Umordnungsaufgaben • Bei Umordnungsaufgaben müssen vorgegebene Elemente der Reihenfolge nach sortiert werden. Beispiel 6 - Umordnungsaufgabe (Quelle: Bühner 2008) 4.1 Gebundene Aufgabenbeantwortung Allgemeine Probleme gebundener Itemformate • • • Schwierige Anwendbarkeit für manche Konstrukte (z.B. Erfassung von Kreativität, sprachlichen Fertigkeiten) Zufallslösungen durch Raten Absichtliches Verfälschen: – – – – • • • Simulation: Vortäuschen von Verhalten oder Symptomen Dissimulation: Verschleiern oder Verbergen von Verhalten oder Symptomen Grund: Soziale Erwünschtheit Folge: deutliche Verzerrung der Skalenwerte. Antworttendenzen können Itemkennwerte verzerren (Ja-sageTendenzen, Tendenz zu mittleren oder extremen Urteilen ) Motivation des Probanden: Je komplexer Items, je schwerer Items und je länger Test, desto wahrscheinlicher sinkt Motivation des Probanden Reihenfolgeeffekte: Abhängig von der Position kann Antwort auf ein Testitem zwischen Probanden variieren. 4. Auswahl von Testaufgaben 4.2 Freie Aufgabenbeantwortung • • • Keine festen Kategorien für die Aufgabenbeantwortung vorgegeben Aufgaben sind frei oder teilstrukturiert (Teile der Lösung sind vorgegeben) Arten freier Aufgabenformate: – Ergänzungsaufgabe – Kurzaufsatz 4.2 Freie Aufgabenbeantwortung Ergänzungsaufgabe • Ergänzungsaufgabe ist teilstrukturiert Beispiel 7 - Offene Fragen (Quelle: Bühner 2008) • • Vorteile: Zufallslösungen kaum möglich, Konstruktion komplexer Aufgaben möglich Nachteile: nur Reproduktion von Wissen, größerer Zeitaufwand, eingeschränkte Auswertungsobjektivität wenn mehrere Begriffe passen 4.2 Freie Aufgabenbeantwortung Kurzaufsätze • Auf Fragen müssen kurze, freie Antworten gegeben werden. Beispiel 8 - Kurzaufsatz (Quelle: Bühner 2008) • • Vorteile: Zufallslösungen nicht möglich, freie Reproduktion von Wissen möglich Nachteile: Eingeschränkte Auswertungsobjektivität da Festlegen eindeutiger Auswertungskriterien schwierig 4. Auswahl von Testaufgaben 4.3 Regeln zur Aufgabenformulierung • Itempolung: – negative Formulierung um Ja-sage-Tendenz entgegenzuwirken – Verständlichkeitsschwierigkeiten bei doppelter Verneinung – längere Aufgabenbearbeitung Beispiel 9: (Quelle: Bühner 2008) 4. Auswahl von Testaufgaben 4.3 Regeln zur Aufgabenformulierung • Mehrdeutige Begriffe vermeiden (Wort positiv oder negativ gemeint?) Beispiel 10: (Quelle: Bühner 2008) • Formulierungen verwenden die Zielgruppe (z.B. Kinder) geläufig sind. Beispiel 11: (Quelle: Bühner 2008) 4. Auswahl von Testaufgaben 4.3 Regeln zur Aufgabenformulierung • Nur ein sachlicher Gedanke Beispiel 12: (Quelle: Bühner 2008) • Verallgemeinerungen („alle“, „keiner“) vermeiden Beispiel 13: (Quelle: Bühner 2008) 4. Auswahl von Testaufgaben 4.3 Regeln zur Aufgabenformulierung • Abkürzungen vermeiden Beispiel 14: (Quelle: Bühner 2008) • Zeitrahmen eindeutig definieren Beispiel 15: (Quelle: Bühner 2008) 5. Itemanalyse 5.1 Ermittlung der Itemrohwerte • • • • • Probandenrohwert: Wert einer Testperson bei der Beantwortung eines einzelnen Items. Itemmittelwert: über Testperson summierte oder gemittelte Probandenrohwerte Skalen-/Untertestmittelwerte: Probandenrohwerte über die Probanden für bestimmte Anzahl von inhaltsähnlichen Items summiert oder gemittelt. Voraussetzung: intervallskalierte Skalen Itemrohwert mit Zufallskorrektur (Raten berücksichtigt): – Anzahl der Antwortkategorien berücksichtigt. – Anwendungsbereich: Leistungstests Mehrfachwahlaufgaben: Xi = Ri " ! Fi m"1 Richtig-Falsch-Aufgaben: Xi = Ri " Fi ! m: Anzahl der Wahlmöglichkeiten Ri: Anzahl der Richtigen Antworten Fi: Anzahl der Falschen Antworten 5. Itemanalyse 5.2 Schwierigkeitsanalyse • Messung der Schwierigkeit eines Items • Schwierigkeitsindex ohne Korrektur: P= ! NR •100 N NR: Anzahl der Probanden die Aufgabe richtig gelöst haben N: Anzahl aller Probanden – für Schwierigkeitsanalyse bei Persönlichkeitstests (kein Raten) – Begriff „Schwierigkeit“inhaltlich schwer anwendbar; es wird lediglich beschrieben wie viele Probanden Item gelöst haben. – Hoher Prozentwert bedeutet „leichte“, geringer „schwere“ Aufgabe 5. Itemanalyse 5.2 Schwierigkeitsanalyse • Schwierigkeitsindex mit Zufallskorrektur: PZK = ! NF m " 1 •100 N NR " NR: Anzahl der Probanden die Aufgabe richtig gelöst haben NF: Anzahl der Probanden die Aufgabe falsch gelöst haben m: Anzahl der Wahlmöglichkeiten – für Leistungstests bei denen es eine Richtige Lösung gibt. – Je kleiner Index, desto schwerer ist das Item und desto mehr Probanden haben falsch geantwortet. – Je mehr Antwortkategorien es gibt, desto weniger wahrscheinlich ist Zufallslösung und Index wird weniger stark nach unten korrigiert. 5. Itemanalyse 5.2 Schwierigkeitsanalyse • Schwierigkeitsindex mit Inangriffnahmekorrektur: PIK = NR •100 NB NR: Anzahl der Probanden die Aufgabe richtig gelöst haben NB: Anzahl der Probanden die die Aufgabe bearbeitet haben – für zeitbegrenzten Leistungstests, bei denen Probanden aufgrund der Zeitbegrenzung nicht alle Aufgaben bearbeiten können. ! • Schwierigkeitsindex mit Zufalls- und Inangriffnahmekorrektur: N NR " F m " 1 •100 PZK,IK = NB ! NR: Anzahl der Probanden die Aufgabe richtig gelöst haben NF: Anzahl der Probanden die Aufgabe falsch gelöst haben NB: Anzahl der Probanden die die Aufgabe bearbeitet haben m: Anzahl der Wahlmöglichkeiten 5. Itemanalyse 5.2 Schwierigkeitsanalyse • • • Mit Zufallskorrektur kann Schwierigkeitsindex negativ werden (Ratewahrscheinlichkeit wird überschätzt ); negativer Schwierigkeitsindex nicht definiert; Raten sollte schon durch angemessene Konstruktion der Items zu unterbunden werden. (Antwortformate) Items mit mittlerer Schwierigkeit für Test auswählen; mittlerer Schwierigkeitsindex erhöht die Wahrscheinlichkeit für hohe Streuungen der Items (Binomialverteilung); hohe Streuung garantiert große Differenzierbarkeit zwischen den Probanden Allerdings auch schwere Items für den Test auswählen damit Differenzierung der Probanden an den Randbereichen erreicht wird. 5. Itemanalyse 5.3 Trennschärfenanalyse • • Trennschärfe: korrigierte Korrelation eines Items mit einer Skala Part-whole-Korrektur: – betreffendes Item aus Skala ausschließen – Grund: sonst Überschätzung der Trennschärfe (partielle Eigenkorrelation) – Je größer Itemanzahl einer Skala, je homogener Skala, desto weniger ändern sich Trennschärfen durch Part-whole-Korrektur • Negative Trennschärfen (ungeeignet für Testkonstruktion) – Item korreliert entgegen Erwartungen negativ mit der Skala (Item sollte von Probanden mit hohem Skalenwert gelöst werden wird aber von Probanden mit niedrigem Skalenwert gelöst) – Bei Verwendung negativ gepolte Items (vor Trennschärfenanalyse umkehren) • Eigen- und Fremdtrennschärfen: – Eigentrennschärfe: Korrelation zwischen Item und Skala wobei beide das gleiche Kriterium messen – Fremdtrennschärfe: Korrelation von Item mit Skalen oder Testwerten anderer Fragebögen oder Kriterien 5. Itemanalyse 5.3 Trennschärfenanalyse • Trennschärfe: Punkt-Moment-Korrelation (part-whole-korrigiert) – Trennschärfen zwischen intervallskalierten Items und Skalen rj(t- j) = rjt S t " S j S 2t + S 2j - 2rjt S t S j rj: Korrelation des Items j mit der Skala t Sj: Standardabweichung des Items j St: Standardabweichung der Skala t – Beispiel: ! Item: „Ich bin ein offener Mensch.“ trifft zu 1 2 3 4 5 trifft nicht zu Skala: „Extraversion“ (intervallskaliert) positive Trennschärfe hier: je mehr Probanden Item zustimmen, desto höher fällt ihr Skalenwert „Extraversion“ ohne das entsprechende Item aus. – Extremwerte stellen großes Problem dar; vor Trennschärfenanalyse Ausreißer identifizieren und entfernen 5. Itemanalyse 5.3 Trennschärfenanalyse • Trennschärfe: Punktbiseriale Korrelation (part-whole-korrigiert) – Trennschärfen zwischen dichotomen Items und intervallskalierten Skalen rj(t- j) = rjt S t " p jq j S 2t +p jq j - 2rjt S t p jq j rjt: Korrelation des Items j mit der Skala t pj: Schwierigkeitsindex des Items j qj: 1 - pj St: Standardabweichung der Skala t – Beispiel: ! Item: „Ich gehe gerne aus.“ Ja/Nein (dichotom) Skala: „Extraversion“ (intervallskaliert) positive Trennschärfe hier: Probanden die Item mit „Ja“ beantworten, erzielen eher höhere Werte auf der Skala „Extraversion“ als Probanden die mit „Nein“ antworten 6. Normierung • Problem: – Erreichter Gesamtwert eins Test (z.B. Intelligenztest) stellt Leistung der Testperson dar. – Für Aussagen über Intelligenz der Person muss Ergebnis mit Normstichprobe verglichen werden. • • Normstichprobe: Repräsentative Stichprobe die bei Normierung des Tests zur Verfügung steht. Normierung des Tests: – Normalverteilte Rohwerte in z-Werte umrechnen: z= X "M S – z-Werte mittels linearer Transformation (f(x)=ax+b) in andere Normskalen transformieren; z.B. IQ-Wert: ! IQ = 100 + 15z Abbildung 6: Darstellung der gebräuchlichsten Normen (Quelle: Bühner 2008) 6. Normierung Erzeugung von Normwerten • T- und SW-Werte: zur Normierung von Leistungstests verwendet SW = 100 + 10z • T = 50 + 10z C-Werte und Stanine-Werte (standard nine) C-Wert = 5 + 2z – Stanine-Werte durch Reduzierung der C-Skala auf neun Werte oder abgeleitet von Prozenträngen – häufig als Norm für Persönlichkeitstests verwendet • Prozentränge (bei nicht normalverteilten Stichproben): – Keine lineare Transformation der Itemrohwerte – Kumulative Verteilung – Nur Ordinalskalennivea 6. Normierung Erzeugung von Normwerten Abbildung 7: Umrechnung v on Prozenträngen in Stanine Werte (Quelle: Bühner 2008) Quellenverzeichnis Literatur: • • Bühner, Markus (2008): Einführung in die Test- und Fragebogenkonstruktion.München: Pearson Studium Rost, Jürgen (2004): Lehrbuch Testtheorie - Testkonstruktion.Bern: Huber Internetquellen: • Süddeutsche IQ Test URL:http://iqtest.sueddeutsche.de/ [12.05.2009] • outofsevice.com URL:http://de.outofservice.com/bigfive/ [12.05.2009] • IPN: Leibniz-Institut für die Pädagogik der Naturwissenschaften an der Universität Kiel URL:http://pisa.ipn.uni-kiel.de/Aufgaben_Naturwissenschaft.pdf [10.05.2009]