Gaukelt uns KI-Reasoning mehr vor, als dahinter steckt? Jein. Aktuelle Forschung zur Abstraktionsfähigkeit bzw. "Intelligenz" von Large Language Models. Teil 1.

Ist KI „intelligent“?

Die Frage ist so alt wie der Begriff selbst. Damit ist gemeint, ob KI wirklich in dem Sinne intelligent ist, wie man dies Menschen unterstellt.

Bevor wir hierzu tiefer einsteigen, werft mal einen Blick in diese Videosequenz von FatherPhi (Ihr könnt natürlich die ganzen sieben Minuten schauen, der Punkt wird aber schon nach dem ersten Beispiel – ChatGPT – klar. Na okay, Claude solltet Ihr euch noch ansehen…😉, ab Min 5:55):

Ok, drollig… Das hat aber nichts mit KI-Bashing zu tun, sondern es verdeutlicht, dass die LLMs so ihre Probleme mit dem Konzept der Abstraktion haben…

Intelligenz (im evolutionstheoretischen und letztlich psychologischen Sinne) bedeutet im Kern die Fähigkeit, Probleme zu lösen. Aber der Satz geht noch weiter, denn es geht um die Fähigkeit, Probleme zu lösen, die man noch nicht kannte.

Dieser Halbsatz ist speziell zur Beantwortung der Eingangsfrage „Ist KI intelligent?“ nicht ganz unwichtig…

Essentiell für die Fähigkeit, Probleme zu lösen (und damit für den hier betrachteten Intelligenzbegriff) ist dabei das Schlussfolgern. Und Schlussfolgern geschieht über logische Ableitung und Abstraktion. Darum geschieht die Messung von Intelligenz zumeist über die Lösung von abstrakten Problemen: Man betrachtet Zahlenreihen und soll diese über die Erkennung der in der Zahlenreihe versteckten Logik „sinnvoll“ fortsetzen. Oder man betrachtet Figurenreihen (sog. Matrizen) und muss diese entsprechend einer darin steckenden Logik vervollständigen. Oder man fragt in Syllogismen so etwas wie „A ist B. B ist ein Tier. Ist A ein Tier?“ Auch mehr oder weniger komplexe Spiele können zur Intelligenzmessung herangezogen werden (hierzu hier mehr…).

Menschen wurden durch diese Fähigkeit zur dominanten Spezies auf der Erde. Sie waren nicht die schnellsten oder stärksten, sondern die schlausten Lebewesen. Eine besonders wichtige Fähigkeit dabei: Den Verstand nutzen, um sich Tools zu bauen, mit denen man Dinge schaffen konnte, die der Körper allein nicht hergibt.

So gibt es eine berühmte Metapher von Steve Jobs, die den Menschen entsprechend als Toolbuilder darstellt, der von allen Lebewesen eine Strecke am effizientesten zurücklegen kann, weil er sich eines (vom Menschen und dessen Verstand erfundenen) Fahrrads bedient. Darum nannte Jobs entsprechend auch Computer „Fahrräder für den Verstand“…

Und wenn die frühen Computer so etwas wie Fahrräder waren, was sind denn dann wohl die modernen KI-Systeme? Handelt es sich auch „nur“ um Vehikel, mittels derer der Mensch Dinge tun kann, die er selber allein nicht könnte? Oder handelt es sich bei KI möglicherweise selber um einen überlegenen Verstand? Und damit sind wir wieder bei der Frage: Ist KI selber intelligent?

Diese Frage wird heiß debattiert. Dabei geht es nicht so sehr um die Frage, ob KI in der Lage ist, Probleme zu lösen. Das ist sie zweifelsohne. Es geht um die Frage, ob KI in der Lage ist, Probleme durch Schlussfolgern zu lösen.

Warum macht das einen Unterschied? Ich meine, man könnte ja argumentieren, dass es völlig schnurz ist, wie jemand oder etwas zu einer Lösung gelangt, Hauptsache man kommt zur Lösung. So einfach ist es aber nicht.

Erstens ist es – gerade bei künstlicher Intelligenz – wichtig zu wissen, wie deren Outputs entstehen, auch um diese „erklärbar“ zu machen. Nur wenn dieses halbwegs gelingt, wird man KI „beherrschbar“ halten können. Zweitens geht es hierbei auch um die Frage, ob KI Potenzial hat, Lösungen auch außerhalb dessen zu finden, was man schon kennt. Und hier komme ich wieder auf den Halbsatz von oben zurück:

Probleme, die man noch nicht kannte…

Wenn KI nämlich am Ende nur hieße, dass sie letztlich Gelerntes anwendet, um ein Problem zu lösen, dann ist diese Problemlösekompetenz endlich. Dann wird die Problemlösekompetenz immer ein Resultat der Menge und der Qualität der Trainingsdaten bleiben und so etwas wie Artificial General Intelligenz (AGI) kaum möglich sein.

Vor diesem Hintergrund haben nahezu alle relevanten LLMs über die letzten Monate eigene Modelle an die Seite gestellt bekommen, die explizit als „fähig zum Schlussfolgern“ gelten – sog. „(Large) Reasoning Modelle“ (auch als LRM abgekürzt).

Wie steht es dabei nun um die Fähigkeit zum Schlussfolgern? Im Juni letzten Jahres hatte ich hier unter quasi unter der gleichen Leitfrage ein Paper von Apple vorgestellt („The Illusion of Thinking„), das hier ein relativ ernüchterndes Bild skizzierte.

Nun erschienen Anfang des Jahres zwei weitere Paper, die den aktuellen Forschungsstand hierzu gut wiedergeben:

1. Large Language Model Reasoning Failures (Song et al.)

2. Do AI Models Perform Human-like Abstract Reasoning Across Modalities?

Ich habe mir beides angesehen, aber damit das hier noch bei einer halbwegs verdaubaren Menge bleibt, stelle ich heute erstmal nur das zweite Paper vor, also den Artikel „Do AI Models Perform Human-like Abstract Reasoning Across Modalities?“ von Beger et al. vom Santa Fe Institute.

1. Ausgangspunkt: Wenn hohe Genauigkeit als Denkfähigkeit missverstanden wird

Der Aufsatz setzt an einer der derzeit heißesten Behauptungen der KI-Forschung an: Große Reasoning-Modelle hätten einen qualitativen Sprung hin zu menschlicher Abstraktionsfähigkeit gemacht.

Auslöser ist vor allem die starke Performance moderner Modelle (insb. OpenAI o3) auf dem ARC-AGI-Benchmark, der explizit dafür entwickelt wurde, menschliche Abstraktion und Analogiebildung zu messen. Modelle erreichen hier – zumindest textuell – teils höhere Trefferquoten als Menschen.

ARC-AGI? Was ist das?

Die Abkürzung steht für „Abstract Reasoning Corpus for Artificial General Intelligence“.

Es handelt sich um einen von François Chollet im Jahr 2019 eingeführten Benchmark-Test für Künstliche Intelligenz.
Der Test misst die „fluide Intelligenz“ von KI-Systemen, also ihre Fähigkeit, neue Probleme zu lösen und Fähigkeiten zu erlernen, ohne vorher intensiv auf genau diese Aufgaben trainiert worden zu sein.
Es ist eine Sammlung von gitterbasierten Aufgaben. Die KI erhält Eingabe-Ausgabe-Beispiele und muss die zugrunde liegende Regel verstehen, um ein neues, unbekanntes Gitter korrekt zu transformieren (siehe Beispiel-Abbildung):

Jedes Rätsel („Aufgabe“) besteht aus einer kleinen Reihe von Demonstrationen (ursprüngliche und transformierte Gitter) und einem Testgitter. Diese Gitter haben jeweils eine Größe von 1 × 1 bis 30 × 30, wobei jede Zelle eine von 10 möglichen Farben hat. Um eine Aufgabe zu lösen, muss ein Agent eine Regel ableiten, die die Demonstrationen regelt, und diese Regel auf die Testeingabe anwenden, um ein korrektes Ausgabegitter zu erzeugen.

Ihr könnt ja mal überlegen, wie die Testgitter in den beiden Aufgaben wohl aussehen müssen… 😉 Wahrscheinlich kommt Ihr recht flott auf Regeln wie „entferne das obere und das untere Objekt, unabhängig von Größe, Farbe, Form, Position etc.“ (Task 1) oder „nimm das Objekt in der Mitte“ (Task 2), oder?

In diesen Aufgaben schneiden einzelne Large Reasoning Modelle inzwischen ganz manierlich ab, d.h. sie lösen viele der Aufgaben richtig.

Aber die zentrale Frage des Papers von Beger und Kollegen lautet nicht „Wie gut sind die Modelle?“, sondern:

Tun KI-Modelle das, was der Benchmark eigentlich messen will, nämlich Problemlösekompetenz zu messen, oder liefern sie nur die richtigen Antworten aus den falschen Gründen?

Diese Frage ist alles andere als akademisch. Sie trifft den Kern der aktuellen KI-Debatte:

Erklärt uns hohe Genauigkeit wirklich etwas über Denken – oder nur über Musteranpassung? Also: Lösen LRM die Aufgaben, weil sie die Regel erkennen und anwenden? Oder weil sie inzwischen so viele solcher Aufgaben gelernt haben, dass sie mit höherer Wahrscheinlichkeit richtig raten? Oder weil sie Korrelationen (Muster) finden, die auch zur richtigen Lösung führen, die aber mit dem eigentlichen Problem gar nichts zu tun haben (sog. „Shortcuts“)? Dass neuronale Netze in der Lage sind, solche Shortcuts zu entdecken und zu nutzen, ist allgemein bekannt (s. z.B. Du et al., 2023). So „kann“ KI etwa auf Bildern Hunde von Wölfen unterscheiden, tut dies aber möglicherweise darüber, dass auf den Wolfsbildern häufig Schnee im Hintergrund zu sehen ist, auf den Hundebildern aber nicht.

2. Warum ConceptARC statt ARC: Abstraktion sichtbar machen

Also: Regelerkennung, Raten oder Shortcut? Um diese Frage sauber zu untersuchen, wechselt das Autorteam bewusst den Prüfstand:

Statt des komplexen ARC-AGI nutzen sie ConceptARC, einen verwandten, aber konzeptionell reduzierten Benchmark. Die oben abgebildeten Beispiele stammen aus dem ConceptARC.

ConceptARC zerlegt abstraktes Denken in 16 grundlegende Konzepte wie:

oben vs. unten
innen vs. außen
gleich vs. verschieden
zählen
zentrieren

Das Video oben von FatherPhi hat ja auch was mit „oben – unten“ tun, ebenso wie die oben gezeigte Beispielaufgabe Task 1. Task 2 dreht sich um „innen – außen“ usw.

Jede Aufgabe testet genau ein solches Konzept – in unterschiedlichen Ausprägungen.

Der Vorteil: 👉 Man kann klar erkennen, ob ein Modell das gemeinte Konzept erkennt – oder einen inhaltlich zufälligen Shortcut nutzt.

Menschen lösen diese Aufgaben mit rund 91 % Genauigkeit – und vor allem: mit regelhaft erklärbaren, abstrahierten Lösungen.

3. Methodischer Kern: Nicht nur Antworten zählen, sondern Regeln prüfen

Der entscheidende methodische Beitrag des Papers liegt darin, dass die Autoren nicht nur bewerten, ob ein Modell richtig liegt – sondern wie es sich die Lösung erklärt.

Jedes Modell (und auch menschliche Proband:innen) musste dabei das korrekte Output-Grid erzeugen und eine natürliche Sprachregel formulieren, die die Transformation beschreibt.

Diese Regeln wurden manuell klassifiziert in:

correct-intended → trifft die beabsichtigte abstrakte Regel
correct-unintended → funktioniert zufällig, nutzt aber oberflächliche Merkmale oder Shortcuts
incorrect

Damit verschiebt sich der Fokus vom Output auf das Abstraktionsniveau – ein Punkt, der in bisherigen ARC-Auswertungen fast vollständig fehlte.

4. Zentrales Ergebnis I: Textuell stark – aber oft aus den falschen Gründen

Erstens: Output-Genauigkeit: KI schlägt den Menschen (scheinbar)

Im textuellen Modus erreichen moderne Reasoning-Modelle folgende Werte

OpenAI o3 (medium effort): ~77 %
Menschen (pass@1): ~73 %

Sieht auf den ersten Blick nach einem Sieg der Maschine aus.

Doch der Sieg ist brüchig. Das zeigt zweitens ein Blick auf die Regelanalyse:

Bei o3 basieren rund 27–30 % der korrekten Lösungen auf
correct-unintended oder sogar inkorrekten Regeln
Bei Menschen liegt dieser Anteil bei unter 10 %, eher bei ~3–8 %

Mit anderen Worten: Die KI ist deutlich häufiger „zufällig richtig“, während der Mensch häufiger das eigentliche Konzept trifft.

Was sind typische KI-Shortcuts?

Nutzung der numerischen Kodierung von Farben (0–9), obwohl diese semantisch irrelevant ist
Zählen von Pixeln statt Erkennen von Objekten
Sortieren nach Größen oder Häufigkeiten statt nach räumlichen Relationen

Dadurch kann es häufig vorkommen, dass das Ergebnis formal korrekt ist, aber eben nicht generalisierbar.

5. Zentrales Ergebnis II: Visuell scheitert die KI – denkt aber teilweise richtig

Noch spannender wird es im visuellen Modus. Hier zeigen sich massive Leistungseinbrüche der KI. Bei bildbasierten Aufgaben fällt die Genauigkeit der Modelle teils auf unter 10 %. Selbst wenn die KI Tools wie Python verwenden darf, bleiben sie weit unter menschlichem Niveau.

Auf den ersten Blick wirkt das wie ein Totalversagen. Aber auch hier ist das Ergebnis überraschend. Denn hier gilt oft: Richtige Abstraktion aber falsche Umsetzung.

Die Regelanalyse zeigt, dass in vielen falschen visuellen Outputs die Modelle
korrekte, beabsichtigte abstrakte Regeln formulieren. Hier liegt das Scheitern also oft in Dingen wie

falscher Gittergröße
minimalen Platzierungsfehlern
visuellen Zuordnungsproblemen

Die Autoren sprechen hier explizit von perzeptuellen Fehlern, nicht von Denkfehlern.

Was heißt das jetzt in der Konsequenz?

Betrachtet man die reine Output-Genauigkeit unterschätzt man die visuelle Abstraktionsfähigkeit der KI und überschätzt die textuelle.

6. Reasoning-Budget und Tools: Mehr Rechenzeit ≠ mehr Verständnis

Ein weiteres wichtiges Ergebnis betrifft das viel diskutierte „Test-Time-Scaling“. Also grob übersetzt: Was verändert sich, wenn man der KI mehr Ressourcen zum „Denken“ gibt?

Hier zeigt sich bspw., dass mehr Reasoning-Tokens vor allem im Textmodus und dass Python-Tools vor allem im visuellen Modus helfen (wahrscheinlich durch den damit einhergehenden Zugriff auf sog. Computer Vision Libraries).

Aber: Keines von beiden reduziert systematisch den Anteil von unintended rules!

Das heißt: Die Modelle denken nicht tiefer – sie denken länger oder rechnen mehr. Die zugrunde liegende Abstraktionsstrategie bleibt oft unverändert.

7. Mensch vs. Maschine: Der qualitative Unterschied

Über alle Analysen hinweg kristallisiert sich ein robuster Befund heraus:

Menschen nutzen konsistent objektbasierte, semantische Konzepte, sie abstrahieren über Aufgaben hinweg und formulieren kompakte, generalisierbare Regeln.

KI-Modelle wechseln häufig zwischen Strategien, greifen auf oberflächliche Merkmale zurück und sind stark kontext- und repräsentationsabhängig.

Oder zugespitzt:

Der Mensch erkennt das Prinzip – die KI erkennt oft nur die Konstellation.

8. Die große Warnung des Papers: Accuracy ist eine gefährliche Abkürzung

Der vielleicht wichtigste Satz des gesamten Aufsatzes (sinngemäß):

Wer abstraktes Denken nur über Genauigkeit misst, misst oft das Falsche.

Denn textuelle Genauigkeit kann Abstraktionsfähigkeit überschätzen, visuelle Genauigkeit kann sie unterschätzen. Ohne Regelanalyse bleiben Shortcut-Lösungen unsichtbar.

Für alle, die aus Benchmark-Erfolgen auf „Denken wie der Mensch“ schließen, ist das eine deutliche Mahnung.

9. Einordnung: Warum das weit über ARC hinausgeht

Die Autor:innen betonen zum Schluss ausdrücklich, dass es ist nicht immer nötig, dass KI menschlich denkt. In manchen Domänen (z. B. Proteinfaltung) sind nicht-menschliche Strategien sogar überlegen.

Aber überall dort, wo KI erklären, generalisieren, Vertrauen erzeugen oder mit Menschen kooperieren soll, sind menschlich verständliche Abstraktionen unverzichtbar (hat irgendjemand gerade HR-Tech oder Legal-Tech gesagt…?).

Und genau dort zeigen die Ergebnisse klare Grenzen heutiger Systeme.

Der Aufsatz ist kein KI-Bashing. Er ist etwas Wertvolleres: eine Entzauberung mit Präzision, denn er zeigt, warum Benchmark-Triumphe trügen können und warum „Reasoning“ oft sprachlich überzeugender wirkt, als es inhaltlich ist.

KI kann heute erstaunlich gut erklären, warum eine Lösung richtig aussieht. Aber sie kann noch viel zu oft nicht sagen, welches Prinzip dahintersteckt – und ob es morgen noch gilt.

Insofern: Ja, KI kann oft sehr gut Probleme lösen. Aber ohne Abstraktion wird es immer wackelig bleiben, wenn es um Probleme geht, die sie noch nicht kannte. Dann ist es immer „Raten“, kein „Schlussfolgern“. Da KI im Zweifel sehr viel weiß, kann sie halt allerdings oft ziemlich ziemlich gut raten.

Der Begriff „Denken“ ist dehnbarer, als wir glauben. KI-Modelle können viel, stoßen aber irgendwann an Grenzen – genau wie wir. Das heißt nicht, dass sie nur Illusion sind. Es heißt nur: Sie denken anders. Mit Mustern, Wahrscheinlichkeiten und Algorithmen, nicht mit Abstraktion.

Wie gesagt: Teil 2 – also die Betrachtung des anderen oben genannten Papers von der Uni Stanford – folgt hier in Kürze. Sehr lesenswert und dringend empfohlen ist in diesem Zusammenhang auch ein Blick in die oben zitierten Apple-Studie Illusion of Thinking, die ich hier beschrieben habe:

Kann KI wirklich schlussfolgern? Ist KI „intelligent“? Bemerkenswerte Studie von Apple. Und eine Schach-Niederlage gegen einen Atari von 1977…

Ein Kommentar zu „Gaukelt uns KI-Reasoning mehr vor, als dahinter steckt? Jein. Aktuelle Forschung zur Abstraktionsfähigkeit bzw. „Intelligenz“ von Large Language Models. Teil 1.“

Micky sagt:

20. Februar 2026 um 11:32 a.m. Uhr

– Den Verstand nutzen, um sich Tools zu bauen, mit denen man Dinge schaffen konnte, die der Körper allein nicht hergibt. –

Schau dir mal Videos von Michael Jordan an und dann schau dir ein Video von den neusten Sport KI-Robotern an. Wer dann nicht merkt wer besser ist und wozu das alles, der merkt nichts mehr. :-) Es geht also weit über Tools hinaus in manchen Bereichen! Guter Artikel! People First.

Recrutainment Blog

Recruiting, Employer Branding & HR-Tech

Gaukelt uns KI-Reasoning mehr vor, als dahinter steckt? Jein. Aktuelle Forschung zur Abstraktionsfähigkeit bzw. „Intelligenz“ von Large Language Models. Teil 1.

Ein Kommentar zu „Gaukelt uns KI-Reasoning mehr vor, als dahinter steckt? Jein. Aktuelle Forschung zur Abstraktionsfähigkeit bzw. „Intelligenz“ von Large Language Models. Teil 1.“

Schreibe einen Kommentar

Das könnte Sie auch interessieren:

Ein Kommentar zu „Gaukelt uns KI-Reasoning mehr vor, als dahinter steckt? Jein. Aktuelle Forschung zur Abstraktionsfähigkeit bzw. „Intelligenz“ von Large Language Models. Teil 1.“

Schreibe einen Kommentar