Schummeln Bewerbende bei ihrer Bewerbung?
Dieser Frage habe bin ich kürzlich hier im Blog nachgegangen. Die Antwort lautet: Ja, tun sie. Angaben in Lebensläufen und Anschreiben und sicherlich auch in Interviews unterliegen in erheblichem Maß mindestens einer gewissen Tendenz, sich „etwas schöner zu machen als man ist“. In extremen Fällen wird dabei sogar die Grenze zum Betrug überschritten und etwa Zeugnisse gefälscht oder Abschlüsse erfunden.
Die Möglichkeiten hierfür sind durch das Aufkommen und die allgemeine Verfügbarkeit von KI-Tools wie ChatGPT o.ä. sicherlich eher noch größer geworden.
Das Überraschende: Die meisten Arbeitgeber scheinen das entweder gar nicht zu problematisieren oder es für vernachlässigbar zu halten. Auf jeden Fall kenne ich – außer im Executive Search oder in sicherheitsrelevanten Berufsbildern – kaum Arbeitgeber, die die gemachten Angaben wirklich überprüfen. Oder habt Ihr schonmal von einem Ausbildungsbetrieb gehört, der in einer Schule die Beglaubigung der Schulzeugnisse seiner Azubis einholt?
Wo allerdings der Schummel-Verdacht immer sofort geäußert wird, ist bei Tests (hier vor allem Leistungstests), insb. dann wenn diese unbeaufsichtigt („unproctored“) und remote durchgeführt werden. Das ist insofern schon etwas skurril, weil Schummeln bei Tests durch einen Mix verschiedener technischer wie rechtlicher Einstellungen erstens erheblich erschwert werden kann und zweitens überprüfbar ist. In Summe ist Schummeln daher bei solchen Tests empirisch gesehen ein zu vernachlässigendes Problem – Kanning und Ohlms fassen in ihrem Buch „Digitale Personalauswahl und Eignungsdiagnostik“ (2023), Kap. 5.7. den Stand der Forschung hierzu sehr schön zusammen: Der Anteil „auffälliger Testergebnisse“ liegt danach lt. versch. Studien im (unteren) einstelligen Prozentbereich, wenn überhaupt einer gefunden wurde. In einer Studie von Lievens & Burke waren es bspw. zwischen 0,3 und 2,2%, Nye et. al. fanden gar keine Unterschiede. In unseren Untersuchungen lag der Anteil an verdächtigen Ergebnissen meist um 1%. Wenn man hier also von einem „Problem“ sprechen möchte, dann ist dies mindestens eines, das erheblich kleiner ist als etwa bei den oben genannten Angaben in einem Lebenslauf.
Gleichwohl war und ist die Frage der Verfälschbarkeit immer irgendwie sowas wie die „Gretchenfrage“ bei Online-Assessments. Und diese hat durch das Aufkommen generativer KI-Tools nun nochmal wieder einigen Wind unter die Flügel bekommen.
Klar, je größer die Verbreitung und allgegenwärtige Verfügbarkeit dieser Tools, desto naheliegender ist auch, dass diese als Hilfsmittel zur Bearbeitung herangezogen werden – so wie dies bisher ja auch schon etwa für Taschenrechner galt.
Die entscheidende Frage ist aber nicht, ob KI als Hilfsmittel genutzt wird, sondern ob KI überhaupt hilft! Sprich:
Schneidet man in Tests besser ab, wenn man KI nutzt?
Hierzu führen wir selber ja regelmäßig Tests und Experimente durch und auch unabhängige Forscher widmen sich dieser Frage regelmäßig.
Die Ergebnisse bisher: ernüchternd.
Groza (2023) mit ChatGPT 3.5. sowie Mitchell et. al. (2023) mit ChatGPT 4 wiesen eine gegenüber Menschen extrem schwache Performance der KI bei der Lösung logischer und zahlengebundener Aufgaben sowie bei Aufgaben abstrakter Schlussfolgerungen nach.
Und auch eine ganz frisch veröffentlichte Studie von Hickman, Dunlop & Wolf (2023) zeigt in diese Richtung, wenngleich das Bild etwas differenziert zu bewerten ist.
Die drei Forscher der Wharton School an der University of Pennsylvania sowie der Curtin University in Perth, Australien haben in der Studie die Leistungsfähigkeit großer Sprachmodelle (LLMs), insbesondere GPT-3.5 und GPT-4, in quantitativen und verbalen Fähigkeitstests untersucht. Verglichen wurden die Ergebnisse mit dem Abschneiden von Menschen, die diese Tests in unbeaufsichtigten „high-stake“ (also realen) Auswahlsituationen durchlaufen haben. Neben der reinen Performance wurden hierbei auch die Art der Prompts sowie die sog. „Temperatur“ (also der hinzugegebene Zufallsfaktor bei der Antwort) variiert.
Bei den quantitativen Tests handelte es sich um sog. Zahlenreihen, also Zahlenfolgen, bei denen die Testperson die dahinterliegende Regel erkennen muss, um darauf basierend eine in der Reihe fehlende Zahl zu ergänzen. Die fehlende Zahl war hierbei entweder innerhalb der Reihe oder am Ende der Reihe zu ergänzen. Neben der Freitexteingabe wurde dieser Aufgabentyp auch mit einem Singe-Choice-Format (wo also aus verschiedenen vorgegebenen Antwortoptionen eine ausgewählt werden musste) verprobt. Ihr erinnert euch vielleicht, ein Experiment mit diesem Aufgabentyp hatte ich hier im Blog auch mal beschrieben.
Bei den verbalen Tests handelte es sich um sog. Syllogismen. Hierbei werden einem ein Obersatz und ein Untersatz sowie eine Konklusio präsentiert (Beispiel: „Jedes A ist ein B, und C ist gleich A. Also muss C gleich B sein.“). Diese Aussage gilt es zu bewerten als „korrekt“, „falsch“ oder „nicht ableitbar“.
Als Vergleich dienten in beiden Fällen Normen, die abgeleitet wurden aus der Testdurchführung etlicher Tausend realer Testteilnehmenden, wobei es sich meist um bachelorabschlussnahe Studierende oder Hochschulabsolventen / Young Professionals handelte.
Die Kern-Ergebnisse:
Bei den zahlengebundenen / quantitativer Tests zeigten sowohl ChatGPT 3.5 als auch 4 eine sehr schlechte Leistung. Diese lag bei 3.5 in der Regel in einem einstelligen Prozentrangbereich, d.h. von 100 menschlichen Testteilnehmenden schnitten mehr als 90 Prozent besser ab. Bei ChatGPT 4 waren die Ergebnisse besser aber immer noch sehr schlecht (unterhalb des 20. Perzentils). Würde also eine durchschnittlich leistungsstarke Testperson den eigenen Test durch die KI bearbeiten lassen, würde sie sich sehr deutlich verschlechtern…
Anders sieht dies bei den verbalen Tests aus. Hier lagen die Resultate von ChatGPT 3.5 zwar noch in einem durchschnittlichen Bereich, bei ChatGPT 4 hingegen im deutlich überdurchschnittlichen.
Die Art des Promptings sowie die Temperatur hatten insg. hierbei jeweils keine wirklich substantiellen Auswirkungen auf die Performance.
Das deckt sich insg. auch mit unseren Erkenntnissen:
Bei Wissenstests und verbalen kognitiven Leistungstests (Analogien, Textanalysen, Syllogismen etc.) schneidet KI inzwischen manierlich bis gut ab. Bei zahlengebundenen, figural-bildhaften und vor allem simulativen Verfahren hingegen sind die Tools schwach und trotz insg. deutlicher Leistungsfortschritte bei LLM auch kaum besser geworden.
Bedenkt man ferner noch, dass User ja auch immer erstmal schauen müssen, wie sie der KI die zu lösende Aufgabe eigentlich am besten stellen und dies zudem bei Leistungstests in aller Regel unter einem beträchtlichen Zeitdruck geschieht, stellt sich zusätzlich die Frage, ob die Zuhilfenahme von KI am Ende wirklich eine schlaue Idee ist. Hickmann et. al. berichten in ihren Experimenten von teilweise bis zu drei Minuten Antwortzeiten bis – in dem Fall – ChatGPT4 die Antwort lieferte. Prüft man dann noch, ob die gelieferte Antwort überhaupt stimmen kann, ist ja der halbe Test rum…
Technische Vorkehrungen, die auffälliges Antwortverhalten, auffällige Lösungsmuster oder verdächtiges Nutzungsverhalten markieren oder die das Prompting der Aufgabenstellung in eine KI durcheinanderbringen – auch dafür kann übrigens KI eingesetzt werden, etwa zur Mustererkennung – sorgen zudem dafür, dass auch unproctored Online-Assessments zumindest wohl bis auf Weiteres als verlässliche Methode der Kandidatenbewertung genutzt werden können.
Und wer all dem dennoch nicht traut, der kann die Tests ja auch wieder unter Aufsicht durchführen. Oder zumindest einen Re-Test vor Ort vorsehen. Allein die Aussicht darauf, dürfte bei vielen Testpersonen schon dafür sorgen, die Tests doch lieber selber zu absolvieren…
Ich habe mir noch eine weitere Studie angesehen, bei der die Fähigkeit großer Sprachmodelle (LLMs) zur mathematischen Beweisführung analysiert wurde. Der Beitrag „GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models“ von Mirzadeh et. al zeigt dabei, dass sich die von LLM, mathematische Aufgaben zu lösen, etwa bei Änderungen numerischer Werte oder bei Erhöhung der Fragekomplexität verschlechtert und selbst geringfügige Änderungen in den Fragen, wie das Hinzufügen irrelevanter Informationen, zu signifikanten Leistungseinbrüchen (bis zu 65 %) führen. Der Artikel zeigt auf, dass viele Modelle mathematische Probleme durch Mustererkennung und nicht durch echtes logisches Denken lösen.
Man erkennt daran eines: KI sind wie die kürzlich Prof. van Treeck ausdrückte „Mustererkennungsmaschinen“ sowie „Mittelmaßerzeugungsmaschinen“.
Übertragen auf den Test-Kontext bedeutet dies: Schwache Kandidaten können sich durch KI-Hilfe auf „Durchschnitt“ verbessern. Starke Kandidaten würden sich durch KI-Hilfe aber auf Durchschnitt verschlechtern. Warum sollten sie das tun? Insofern „staucht“ sich die Verteilung nur enger zusammen. Und diesen Effekt kann man relativ einfach über entsprechende Normierung wieder rausrechnen.
Also: Im Blick behalten muss man das, in Panik verfallen und die Aussagekraft von Tests anzweifeln definitiv nicht.