Nicht lange ist es her, dass Unternehmen von immer weniger Bewerbungen auf ihre ausgeschriebenen Stellen berichteten. Und dass dies unabhängig vom jeweiligen Fachbereich sei. Waren es früher typische Bottleneck-Positionen, wie beispielsweise in der IT, so gelte dies nun aufgrund des Bewerber:innen-Marktes und des demographischen Wandels für praktisch alle Stellen.
Als Folge dessen wurden Recruiting-Prozesse immer weiter verschlankt, um die Hürden für Bewerber:innen abzusenken und von den wenigen, die sich noch bewerben, möglichst niemanden abzuschrecken und in Folge zu verlieren.
Seit jeher gibt es die Diskussion, wie lang eignungsdiagnostische Tests im Rahmen von Recruiting-Prozessen sein dürfen. Immer vor der impliziten Annahme, dass es einen Zusammenhang zwischen der Testlänge bzw. -dauer und der Akzeptanz auf Seiten der Bewerber:innen gibt: Je länger der Test, desto negativer die Reaktionen der Bewerber:innen. Dies gilt umso mehr für kognitive Testverfahren, so zumindest die Annahme.
In einem früheren Blogbeitrag (Brechen Bewerbende lange Assessments eher ab? Der Zusammenhang zwischen Testlänge und Akzeptanz) haben wir schon einmal zum Zusammenhang von Testlänge und Akzeptanz geschrieben und dabei auf die Studie von Jay Hardy (Oregon State University) und Kolleg:innen aus dem Jahr 2017 Bezug genommen. („Are Applicants More Likely to Quit Longer Assessments? Examining the Effect of Assessment Length on Applicant Attrition Behavior“)
Die wesentliche Erkenntnis dieser Studie lautete:
Die Neigung, einen Test abzubrechen, nimmt zunächst einmal mit dessen Länge ab.
Wegen der doppelten Verneinung in dem Satz nochmal in anderen Worten:
Je länger der Test, desto weniger Abbruch…
Der Zusammenhang ist also genau entgegengesetzt zu der landläufigen Meinung.
Interessanterweise liegt die Neigung bei kognitiven Leistungstests sogar noch niedriger als bei Tests, die andere Merkmale wie beispielsweise Wissen oder Persönlichkeit erfassen. Erst, wenn die Tests wirklich lang werden, steigen die Abbruchraten wieder leicht an.
Und auch der Wind im Recruiting scheint sich lt. einer aktuellen Studie von Greenhouse gedreht zu haben: Der aktuelle „The Hire Standard Benchmark Report“ liefert auf Basis von Daten aus über 6.000 Organisationen und über 640 Millionen Bewerbungen dramatische Zahlen. Die Anzahl der Bewerbungen pro Recruiter:in ist seit 2022 um 412 Prozent gestiegen. Ein:e Recruiter:in bewältigt heute 746 Bewerbungen pro Jahr. Gleichzeitig wurden Teams um 56 Prozent verkleinert. Diese Schere wird nur durch KI überbrückt. Die Time to Fill ist auf fast 60 Tage angestiegen. Die Qualität leidet.
Vor diesem Hintergrund wird es mal wieder Zeit, ein wenig Empirie zu berichten. In diesem Fall die Studie von Andrew B. Speer (Indiana University) und Kollegen aus dem Jahr 2016, die sich ebenfalls mit dem Zusammenhang von Testlänge bzw. -dauer und den Reaktionen von Bewerber:innen beschäftigt haben (Applicant Reactions as a Function of Test Length: Is There Reason to Fret Over Using Longer Tests?).
Konkret hat diese Studie untersucht, ob die Länge von eignungsdiagnostischen Tests einen negativen Einfluss auf verschiedene Reaktionen der Bewerber:innen hat – wie oben beschrieben eine weit verbreitete Sorge im HR und Recruiting-Kontext.
Insbesondere zwei Forschungsfragen interessierten Speer und Kollegen:
- Wie wirkt sich die Testlänge auf die Reaktionen der Bewerber:innen aus?
- Wirkt sich die Testdauer bei bestimmten Arten von Tests unterschiedlich auf die Reaktionen der Bewerber:innen aus?
Zur Beantwortung der zweiten Forschungsfrage wurden die Reaktionen auf Tests zur allgemeinen kognitiven Leistungsfähigkeit (d. h. kognitive Leistungstests) und auf Persönlichkeitstests untersucht. Für die Studie wurden vier Tests entwickelt (kurzer Persönlichkeitstest, langer Persönlichkeitstest, kurzer kognitiver Test, langer kognitiver Test), die als vier separate Versuchsbedingungen dienten. Untersucht wurden die Forschungsfragen in einem Between-Subjects-Design mit 206 Teilnehmenden. Als abhängige Variablen, um die Reaktionen der Teilnehmenden zu erfassen, wurden folgende Konstrukte gewählt:
- Verfahrensgerechtigkeit (mit Fragen, die sich auf die Einstellung zur berufsbezogenen Relevanz des Tests und auf die Möglichkeit bezogen, ihre Persönlichkeitsmerkmale bzw. Fähigkeiten im Test zum Ausdruck bringen zu können)
- Attraktivität des Unternehmens (z.B. „Dieses Unternehmen wäre ein guter Arbeitgeber.“)
- Bereitschaft, ein Stellenangebot anzunehmen (z.B. „Sollte mir die Stelle bei diesem Unternehmen angeboten werden, würde ich sie annehmen.“)
Was sind die zentralen Befunde der Studie?
Eine längere Testdauer wirkt sich NICHT negativ auf die Reaktionen der Bewerber:innen aus, sondern steigert in bestimmten Fällen sogar die positiven Reaktionen.
Entgegen der gängigen Annahme zeigten sich keine signifikant negativeren Reaktionen bei längeren Tests – weder beim Persönlichkeitstest noch beim kognitiven Leistungstest. Zwar werden die längeren Testversionen, sowohl beim Persönlichkeits- als auch beim kognitiven Leistungstest, als anstrengender empfunden. Die unabhängigen t-Tests ergaben jedoch einen signifikanten Einfluss der Testdauer auf die Wahrnehmung der Verfahrensgerechtigkeit:
Personen, die längere Auswahlverfahren absolvierten, empfanden diese als fairer (d = 0,40, p < 0,01). Längere Tests standen zudem in einem positiven Zusammenhang mit der Attraktivität der Organisation (d = 0,41, p < 0,01) und der Absicht, ein Stellenangebot anzunehmen (d = 0,36, p < 0,01). Eine längere Testdauer wirkte sich also nicht negativ auf die Reaktionen der Bewerber:innen aus, sondern steigerte sogar die positive Bewertung dieser Reaktionen.
Es gab signifikante Interaktionseffekte: Längere kognitive Leistungstests führten zu besseren Reaktionen im Vergleich zu kürzeren kognitiven Leistungstests; ein Effekt, der sich allerdings beim Persönlichkeitstest nicht zeigte.
Teilnehmende, die den längeren kognitiven Leistungstest durchliefen, bewerteten sowohl die Fairness des Auswahlverfahrens als auch die Attraktivität des Unternehmens signifikant positiver als Teilnehmende im Kurztest und zeigten eine signifikant höhere Bereitschaft, ein potenzielles Stellenangebot des Unternehmens anzunehmen. Ein deutlicher Interaktionseffekt, da sich dieses Muster auf keiner der drei abhängigen Variablen für den Persönlichkeitstest zeigte.
Dies erklären die Autoren so:
„Wir glauben jedoch, dass die beobachtete Interaktion auf Unterschiede in der wahrgenommenen zusätzlichen Ausdrucksmöglichkeit der eigenen Leistung zurückzuführen ist. Kognitive Aufgaben unterscheiden sich in der Regel hinsichtlich ihres Itemformats und Inhalts, und die richtigen Antworten sind für die Bewerber:innen nicht ohne weiteres erkennbar. Daher dürfte sich eine Verlängerung der Testdauer durchweg positiv auf die Möglichkeit auswirken, die eigene Leistung unter Beweis zu stellen.“
Vergleich mit den Befunden von Hardy und Kolleg:innen
Die berichteten Befunde reihen sich erstaunlich nahtlos in die Ergebnisse ein, die Hardy und Kolleg:innen berichteten, wonach die Neigung, Tests abzubrechen bis zu einem gewissen Grad mit deren Länge sogar abnimmt.
Und auch in der Studie von Hardy und Kolleg:innen gab es einen „Sondereffekt“ bei den kognitiven Testverfahren, bei denen die Neigung, den Test abzubrechen, sogar noch niedriger ausgeprägt war als bei anderen Merkmalen. Vice versa fanden Speer und Kollegen, dass die Teilnehmer:innen, die den längeren kognitiven Test bearbeiteten, die höchsten Werte unter allen vier Testbedingungen auf den drei abhängigen Variablen Verfahrensgerechtigkeit, Attraktivität des Unternehmens sowie die Bereitschaft, ein Stellenangebot anzunehmen, berichteten.
Es sei aber auch hier nochmal erwähnt, dass es nicht darum geht, Tests unnötig lang zu gestalten. Darauf weisen auch die Autoren explizit hin: „Das soll nicht heißen, dass es empfehlenswert ist, dem Test leichtfertig weitere Aufgaben hinzuzufügen, sondern vielmehr, dass sich die Reaktionen der Testteilnehmer durch die Verwendung eines längeren, berufsrelevanteren Tests nicht unbedingt negativ auswirken.“
Der gefundene positive Zusammenhang zwischen Testlänge und positiven Reaktionen der Bewerber:innen könnte sich umkehren, „wenn die wahrgenommenen Vorteile einer größeren Möglichkeit, die eigene Leistung unter Beweis zu stellen, irgendwann einen Punkt erreichen, an dem der Nutzen abnimmt, und übermäßig lange Testdauern eher zu extremer Erschöpfung und Langeweile führen könnten.“
Es ist also, wie wir auch immer sagen und empfehlen: So lang wie nötig, so kurz wie möglich. Und immer auf Basis einer Anforderungsanalyse und mit klarem Berufsbezug. Und im besten Fall ist der Test attraktiv gestaltet und um Elemente ergänzt, die das Testerlebnis interaktiv und attraktiv machen. Das steigert die Akzeptanz zusätzlich und hat einen Einfluss auf die „wahrgenommene“ Testdauer, wenn der Test insgesamt als kurzweiliger empfunden wird.
Fazit und praktische Implikationen
Entgegen den gängigen Annahmen und Befürchtungen, dass längere eignungsdiagnostische Tests zu negativeren Reaktionen bei Bewerber:innen führen, konnten die empirischen Studien von Hardy und Kolleg:innen (2017) sowie von Speer und Kollegen (2016) mit ganz unterschiedlichen Forschungsdesigns gegenteilige Befunde berichten.
Längere Tests führen demnach bis zu einem gewissen Grad weder zu höheren Abbruchraten noch zu negativeren Reaktionen von Bewerber:innen. Die Studien berichten sogar gegenteilige Effekte: Die Neigung, insbesondere kognitive Tests abzubrechen, sinkt sogar bis zu einem gewissen Grad in Abhängigkeit der Dauer des Testverfahrens. Und auch die Reaktionen der Teilnehmenden war bei längeren kognitiven Tests signifikant positiver als bei kürzeren Testverfahren und auch ggü. Persönlichkeitstests.
Das sind gute Nachrichten. Insbesondere in einer Recruiting-Realität, in der das „KI-Rauschen“ lauter wird, Signale immer mehr an Wert verlieren und KI-produzierte Bewerbungen Unterscheidbarkeit zunehmend erschweren.
Recruiting ist zukünftig angewiesen auf valide, diagnostische Signale, die Unterscheidbarkeit produzieren und die als „Verification“ dienen, also als Ernsthaftigkeitsprüfung der eingehenden Bewerbungen. Genau das liefern eignungsdiagnostische Testverfahren. Setzt man diese als „Top of Funnel Assessment“ frühzeitig im Prozess ein, stellt man sicher, dass man eine valide Vorauswahl trifft und für den weiteren Recruiting-Funnel den Anteil an potenziell passenden Bewerber:innen erhöht. Gleichzeitig „selbstselektieren“ sich diejenigen Bewerber:innen aus, die es mit ihrer Bewerbung eigentlich gar nicht so ernst meinen, die sich aber aufgrund der durch KI und der breiten Verfügbarkeit an LLMs erreichten Niedrigschwelligkeit trotzdem beworben haben.
Und dabei brauchen Unternehmen aufgrund der berichteten empirischen Befunde keine Sorge haben, dass sich hier die „falschen“ Bewerber:innen selbstselektieren. Ernsthafte Kandidat:innen möchten im Verlauf des Bewerbungsprozesses zeigen, was sie können und was in ihnen steckt. Und das können sie besonders gut in validen und attraktiv gestalteten eignungsdiagnostischen Tests, die dazu noch einen erkennbaren Bezug zu den Anforderungen des späteren Jobs haben und Einblicke in die Unternehmenspraxis geben.






Ich glaube auch, das die Testdauer nicht das Problem ist. Wenn man aber Mathematische Formeln abfragt während man auf der Suche nach einem Top Recruiter ist, dann hat man evtl. den falschen Test für die Zielgruppe ausgewählt. Soll vorkommen :-)
Ja, da ist sicher was dran. Anforderungsanalyse. So wichtig. ;-)