Eignungsdiagnostik kompakt: Diskriminierung durch KI in der Personalauswahl. Und durch menschliche Recruiter. Zwei Studien.

Im Februar haben wir uns hier im Rahmen der Artikelserie „Eignungsdiagnostik kompakt“ ja einmal etwas intensiver mit dem Thema „Bias“ beschäftigt. Bias heißt ja zunächst einfach erst einmal „Wahrnehmungs- bzw. Beurteilungsverzerrung“. Aber der Zusammenhang mit dem Thema Diskriminierung liegt auf der Hand, denn wenn etwa sog. „Ingroup-Biases“ zuschlagen, dann kann dies natürlich dazu führen, dass z.B. Männer andere Männer besser bewerten als Frauen oder dass weiße Menschen People of Colour negativer einschätzen als andere weiße Menschen.

Und damit kommt man ggf. auch in den Bereich der Diskriminierung bzw. den Geltungsbereich des AGG.

In diesem Zusammenhang haben wir uns einmal zwei sehr bemerkenswerte Studien angeschaut.

Bei der Meta-Studie „The state of hiring discrimination: A meta-analysis of (almost) all recent correspondence experiments“ (Liepens et. al.) wurde einmal untersucht, inwieweit menschliche Recruiter zu diskriminierendem Verhalten in der Personalauswahl tendieren.

Die zweite Studie „The Strange Behavior of LLMs in Hiring Decisions: Systemic Gender and Positional Biases in Candidate Selection“ (Rozado) befasst sich mit der brandaktuellen Frage, inwieweit KI-Modelle, die etwa für die Lebenslaufanalyse herangezogen werden, diskriminierendes Verhalten an den Tag legen. Diese Untersuchung konzentrierte sich hierbei zunächst „nur“ auf etwaige Gendereffekte, also ob Geschlechter von der KI systematisch bevor- oder benachteiligt werden.

Insb. letztgenannter Punkt ist natürlich vor dem Hintergrund der KI-Verordnung sowie der sehr spektakulären Sammelklage (Class Action Lawsuit) „Mobley gegen Workday“ in den USA höchst aktuell.

Was kam heraus?

Zunächst zur menschlichen Bewertung, ein paar Kernaussagen:

1. Bewerberinnen und Bewerber mit einem als besonders attraktiv wahrgenommenen äußeren Erscheinungsbild haben statistisch gesehen bessere Chancen, zu Vorstellungsgesprächen eingeladen zu werden.

2. Während die Zugehörigkeit zur LGB+ Community selbst kaum Einfluss auf Auswahlentscheidungen nimmt, kann eine sichtbare Verbindung zu entsprechenden Organisationen die Einladungschancen beeinflussen.

3. Herkunft und ethnokultureller Hintergrund wirken sich teils deutlich auf die Bewerbungsprozesse aus – insbesondere Menschen aus arabischen Ländern oder dem Nahen Osten erfahren global betrachtet die stärkste Form der Benachteiligung. Auch Personen aus Ost- und Südostasien sowie dem südeuropäischen Raum sind häufiger betroffen.

4. Soziale Herkunft kann bei der Auswahlentscheidung eine Rolle spielen, wenngleich sich Effekte einer Zugehörigkeit zur unteren sozialen Schicht in der Regel nur in geringem Ausmaß zeigen.

5. Muslimische Bewerberinnen und Bewerber werden im Durchschnitt häufiger benachteiligt, während für Angehörige anderer Religionen keine durchgängig klaren Diskriminierungsmuster erkennbar sind.

6. Das Alter eines Bewerbers kann sich deutlich negativ auf die Einladungschancen auswirken – insbesondere auf dem europäischen Arbeitsmarkt ist altersbedingte Benachteiligung besonders ausgeprägt.

7. Weibliche Bewerber haben bei vergleichbarer fachlicher Eignung in vielen Fällen sogar leicht bessere Chancen auf eine Einladung zum Gespräch.

Das ist insofern alles bekannt. Und die KI? Kann sie es besser?

Hier die Kernbefunde der Untersuchung von Rozado (die allerdings nicht in einem peer-reviewed Journal erschienen ist, sondern auf seiner Substack-Seite):

  • Bevorzugung weiblicher Namen: Trotz identischer Qualifikationen bevorzugten alle getesteten LLMs systematisch Bewerbende mit weiblich klingenden Vornamen gegenüber männlichen, über 70 verschiedene Berufe hinweg.

  • Verstärkung durch explizite Geschlechtsangabe: Das Hinzufügen eines expliziten Geschlechtsfeldes („männlich“/„weiblich“) in den Lebensläufen verstärkte die Bevorzugung weiblicher Kandidaten zusätzlich.

  • Einfluss von Pronomen: Das Angeben bevorzugter Pronomen (z. B. „sie/ihr“ oder „er/ihm“) neben dem Namen erhöhte leicht die Wahrscheinlichkeit, dass ein Kandidat ausgewählt wurde, unabhängig vom Geschlecht.

  • Positional Bias: Die Modelle zeigten eine deutliche Tendenz, den zuerst genannten Kandidaten auszuwählen. Im Durchschnitt wurde der erste Kandidat in 63,5 % der Fälle bevorzugt.

  • Bewertung einzelner Lebensläufe: Bei der isolierten Bewertung einzelner Lebensläufe erhielten weibliche Bewerberinnen im Durchschnitt leicht höhere Bewertungen, jedoch war der Effekt minimal.

  • Einfluss neutraler Bezeichnungen: Als geschlechtsspezifische Namen durch neutrale Bezeichnungen wie „Kandidat A“ und „Kandidat B“ ersetzt wurden, zeigte sich eine Präferenz für „Kandidat A“. Durch das Ausbalancieren der Geschlechtszuweisung zwischen diesen neutralen Bezeichnungen wurde eine Geschlechterparität in der Kandidatenauswahl erreicht.

  • Mangel an konsistenter Begründung: Die Modelle lieferten oft scheinbar logische Begründungen für ihre Entscheidungen, die jedoch nicht auf konsistenten Prinzipien basierten, was Zweifel an ihrer rationalen Entscheidungsfähigkeit aufwirft.

  • Implikationen für den Einsatz von LLMs: Diese Ergebnisse unterstreichen die Notwendigkeit, Vorsicht walten zu lassen, wenn LLMs in entscheidungsrelevanten Kontexten wie dem Personalwesen eingesetzt werden, da sie unbeabsichtigte Vorurteile verstärken könnten.

  • Fragen zur Fairness: Die festgestellten Verzerrungen werfen Fragen hinsichtlich der Fairness und Ethik beim Einsatz von KI in Auswahlprozessen auf und betonen die Bedeutung transparenter und gerechter Entscheidungsmechanismen.

  • Notwendigkeit weiterer Forschung: Es besteht ein Bedarf an weiterer Forschung, um die Ursachen dieser Verzerrungen zu verstehen und Methoden zu entwickeln, die eine faire und objektive Bewertung von Kandidaten durch KI-Systeme gewährleisten.

Heißt?

Ja, in der Personalauswahl wird diskriminiert. In den meisten Fällen sicherlich nicht vorsätzlich und womöglich auch noch nicht einmal kontrollierbar. Dass Menschen „verzerrt“ wahrnehmen und entscheiden, ist schon immer so (nein, das Thema „Evidenz vs. Intuition“ mache ich hier jetzt mal nicht auf…).

Dass aber Bias und damit Diskriminierung „automatisch“ überwunden würden, wenn man die ja vermeintlich so „objektive“ KI ranlässt, ist ein gefährlicher Pfad. Auch KI ist biased. Hier versteckt sich der Bias aber nicht in komplexer Biochemie, sondern in komplexer Mathematik… Es wird spannend sein zu beobachten, wie der Case „Mobley gegen Workday“ wohl ausgeht…

Vielen Dank an Prof. Benedikt Hell, der mich mit seinem LinkedIn-Post hierzu daran erinnerte, dass ich dazu endlich mal was schreibe wollte… 🙏

*****

Bisher in der Artikelreihe „Eignungsdiagnostik kompakt“ erschienen:

12. Anforderungsanalyse: Der Schlüssel für präzise Personalentscheidungen

https://blog.recrutainment.de/2025/04/09/eignungsdiagnostik-kompakt-anforderungsanalyse-der-schluessel-fuer-praezise-personalentscheidungen/

11. Arbeitszeugnis: Zwischen prognostischem Wert und Wohlwollen. Was die Wissenschaft dazu sagt…
https://blog.recrutainment.de/2025/03/03/eignungsdiagnostik-kompakt-arbeitszeugnis-zwischen-prognostischem-wert-und-wohlwollen-was-die-wissenschaft-dazu-sagt/

🔟 Bias – Warum wir uns täuschen. Und wie wir es besser machen können.
https://blog.recrutainment.de/2025/02/09/eignungsdiagnostik-kompakt-bias-warum-wir-uns-taeuschen-und-wie-wir-es-besser-machen-koennen/

9️⃣ Was sagen Noten über Intelligenz? Und sind sie ein guter Prädiktor für Berufserfolg?
https://blog.recrutainment.de/2025/02/04/was-sagen-noten-ueber-intelligenz-und-sind-sie-ein-guter-praediktor-fuer-berufserfolg/

8️⃣ Hobbies und ihre Relevanz in der Bewerbung…
https://blog.recrutainment.de/2024/11/24/eignungsdiagnostik-kompakt-hobbies-und-ihre-relevanz-in-der-bewerbung/

7️⃣ Was ist eigentlich…? Heute: (berufsbezogene) Persönlichkeitstests im Recruiting: Mehr als nur ein Buzzword?
https://blog.recrutainment.de/2024/10/28/eignungsdiagnostik-kompakt-was-ist-eigentlich-heute-berufsbezogene-persoenlichkeitstests-im-recruiting-mehr-als-nur-ein-buzzword/

6️⃣ Wie lässt sich die Qualität des Recruitings „beziffern“? Das Brogden-Cronbach-Gleser-Modell…
https://blog.recrutainment.de/2024/10/18/eignungsdiagnostik-kompakt-wie-laesst-sich-die-qualitaet-des-recruitings-beziffern-das-brogden-cronbach-gleser-modell/

5️⃣ Was ist eigentlich…? Heute: Kognitive Fähigkeitstests
https://blog.recrutainment.de/2024/09/25/eignungsdiagnostik-kompakt-was-ist-eigentlich-eine-heute-kognitive-faehigkeitstests/

4️⃣ Was ist eigentlich ein(e)…? Heute: Die Arbeitsprobe
https://blog.recrutainment.de/2024/08/12/eignungsdiagnostik-kompakt-was-ist-eigentlich-eine-heute-die-arbeitsprobe/

3️⃣ Eignungsdiagnostik kompakt – Heute: Integritätstest
https://blog.recrutainment.de/2024/07/23/eignungsdiagnostik-kompakt-heute-integritaetstest/

2️⃣ Was ist eigentlich ein…? Heute: Das Strukturierte Einstellungsinterview
https://blog.recrutainment.de/2024/07/17/was-ist-eigentlich-ein-heute-das-strukturierte-einstellungsinterview/

1️⃣ Warum wir Intelligenz nicht mit dem Lineal und Persönlichkeit nicht mit dem Thermometer messen können. Erläuterungen zur „klassischen Testtheorie“.
https://blog.recrutainment.de/2024/01/18/warum-wir-intelligenz-nicht-mit-dem-lineal-und-persoenlichkeit-nicht-mit-dem-thermometer-messen-koennen-erlaeuterungen-zur-klassischen-testtheorie/

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert