Wie schön wäre das, wenn wir berufsrelevante Eigenschaften mit allgegenwärtigen Mitteln schnell und einfach messen könnten. Lineal von der Nasenspitze bis zum Hinterkopf angelegt und fertig! Intelligenz gemessen. Thermometer reingesteckt, kurz warten und bing! Persönlichkeit analysiert. Und je nach dem welche Persönlichkeitseigenschaft gemessen werden soll, muss das Thermometer woanders… äh, ich schweife ab!
So einfach geht es (glücklicherweise) nicht. Aber wie funktionieren diese Tests denn nun genau?
Um die Frage zu beantworten, erläutere ich nachfolgend die Hintergründe der klassischen Testtheorie, welche als theoretische Basis für seriöse eignungsdiagnostische Verfahren weit verbreitet ist. Diese Theorie beschreibt, wie eine möglichst genaue Messung von psychologischen Konstrukten vorzunehmen ist.
Die Konstrukte (z.B. eine Intelligenzfacette oder Persönlichkeitseigenschaft wie Extraversion) werden durch sogenannte Testitems operationalisiert. Es wird also ein gewisser Umweg zur Bestimmung des Konstrukts genommen, da sich dieses nicht direkt messen lässt (zumindest solange niemand ein Thermometer dafür erfindet). Im Falle von Intelligenz sind Items typischerweise Aufgaben, die logisches Schlussfolgern erfordern, da Intelligenz als Fähigkeit zum logischen Schlussfolgern definiert ist. Die Messung einer Persönlichkeitseigenschaft wird durch verschiedene situative Aussagen operationalisiert, die die Persönlichkeitseigenschaft inhaltlich beschreiben. Die Testpersonen nehmen zu diesen Aussagen dann Selbsteinschätzungen auf einer Rating-Skala vor.
Folgende Annahmen liegen der klassischen Testtheorie zugrunde:
- Jede Person hat einen „wahren Wert“, der das Ausmaß der jeweiligen Eigenschaft dieser Person beschreibt.
- Dieser wahre Wert wird allerdings dadurch beeinträchtigt, dass eine einzelne Messung nicht fehlerfrei ist, also ein Messfehler vorliegt. Solche Messfehler ergeben sich z.B. durch schwankende Aufmerksamkeit, plötzliche Ablenkung, Tagesform…
- Aus dem wahren Wert und dem Messfehler ergibt sich der Wert, der empirisch beobachtbar ist (also das Testergebnis bzw. Ergebnis der Messung mit einem Item).
- Der Messfehler wird durch mehrere, unterschiedliche Messungen (durch verschiedene Items) reduziert, womit eine Annäherung an den wahren Wert möglich wird.
Zusammengefasst: Die klassische Testtheorie geht davon aus, dass psychologische Konstrukte mit Hilfe von Testitems gemessen werden können, diese aber nicht fehlerfrei sind.
Die klassische Testtheorie stellt nun weitere Annahmen bezüglich der Messfehler auf, die sich leider nicht überprüfen lassen, z.B. dass Messfehler normalverteilt sind und mit dem wahren Wert in keinem systematischen Zusammenhang stehen. Außerdem verlangt sie eine ganze Reihe von Gütekriterien, die psychologische Testverfahren erfüllen sollten, um ein Konstrukt tatsächlich zu messen:
- Objektivität: Ist das Testergebnis unabhängig von der Testdurchführung und der Person, die den Test durchführt, auswertet und interpretiert?
- Reliabilität: Misst der Test das Konstrukt zuverlässig? Ist das Testergebnis möglichst unabhängig vom Zeitpunkt der Messung?
- Validität: Misst der Test tatsächlich das, was er messen soll, also das gewünschte Konstrukt?
Diese Gütekriterien lassen sich statistisch nachweisen. Entsprechende Gütekriterien liegen daher bei seriösen Tests in Form von Studienergebnissen und Kennwerten vor.
Eine zentrale Maßnahme der klassischen Testtheorie ist also die Verwendung mehrerer Items zur Messung eines Konstrukts, weil sich der Messfehler hierdurch ausmittelt. Um das zu erreichen, sind jedoch verschiedene Items mit unterschiedlichen Schwierigkeiten notwendig (man stellt also z.B. nicht wiederholt immer wieder die gleiche Rechenaufgabe). Im Falle von Rechenaufgaben zur Messung der numerischen Intelligenz ist leicht vorstellbar, dass eine Aufgabe unterschiedlich schwer sein kann, was sich in der Messung darin ausdrückt, wie viele Personen diese Aufgabe lösen können. Bei Persönlichkeitseigenschaften gibt es im Gegensatz zur Intelligenz keine „richtige“ oder „falsche“ Antwort auf ein Item. Die „Schwierigkeit“ eines Items beschreibt hier den Anteil der Personen, die dem jeweiligen Item im Sinne der Persönlichkeitseigenschaft zustimmen.
Daher ist es für eine möglichst genaue Messung sinnvoll, mehrere Items mit unterschiedlichen Schwierigkeiten zu nutzen, da so der Messfehler reduziert wird. Außerdem kann das Konstrukt durch mehrere Items in seiner ganzen Breite erfasst werden.
Zur Diagnostik von psychologischen Konstrukten hat sich die klassische Testtheorie vielfach bewährt, sowohl wissenschaftlich als auch in der praktischen Anwendung unter anderem bei Personalentscheidungen. Ihre Kernaussagen sollten stets im Hinterkopf behalten werden, wenn Stakeholder radikale Kürzungen an Testverfahren fordern, da dies wie beschrieben mit einer Reduktion der Messgenauigkeit einhergeht.