Kann KI wirklich schlussfolgern? Ist KI „intelligent“? Bemerkenswerte Studie von Apple. Und eine Schach-Niederlage gegen einen Atari von 1977…

Die Frage ist so alt wie der Begriff selbst: Ist künstliche Intelligenz eigentlich „intelligent“? Damit ist gemeint, ob KI wirklich in dem Sinne intelligent ist, wie man dies Menschen unterstellt.

Intelligenz (im evolutionstheoretischen und letztlich psychologischen Sinne) bedeutet im Grunde nichts anderes als die Fähigkeit, Probleme zu lösen. Dieser Satz geht aber eigentlich noch weiter, denn es geht um die Fähigkeit, Probleme zu lösen, die man noch nicht kannte. Dieser wichtige Halbsatz wird uns weiter unten noch beschäftigen…

Essentiell für die Fähigkeit, Probleme zu lösen (und damit für den hier betrachteten Intelligenzbegriff) ist dabei das Schlussfolgern, in der Regel über logische Ableitung und Abstraktion. Es überrascht daher auch nicht, dass die Messung von Intelligenz zumeist über die Lösung von abstrakten Problemen erfolgt: Man betrachtet Zahlenreihen und soll diese über die Erkennung der in der Zahlenreihe versteckten Logik „sinnvoll“ fortsetzen. Oder man betrachtet Figurenreihen (sog. Matrizen) und muss diese entsprechend einer darin steckenden Logik vervollständigen. Auch mehr oder weniger komplexe Spiele können zur Intelligenzmessung herangezogen werden, was uns weiter unten auch noch beschäftigen wird.

Hier zwei Beispiele:

Dass Menschen diese Fähigkeit haben, hat sie zur dominanten Spezies auf der Erde gemacht. Sie waren nicht die schnellsten oder stärksten Lebewesen, sondern die schlausten. Eine große Fähigkeit dabei: Den Verstand nutzen, um sich Tools zu bauen, mit denen man Dinge schaffen konnte, die der Körper allein nicht hergibt.

So gibt es eine berühmte Metapher von Steve Jobs, die den Menschen entsprechend als Toolbuilder darstellt, der von allen Lebewesen eine Strecke am effizientesten zurücklegen kann, weil er sich eines (vom Menschen und dessen Verstand erfundenen) Fahrrads bedient. Darum nannte Jobs entsprechend auch Computer „Fahrräder für den Verstand“…

Wenn also die frühen Computer so etwas wie Fahrräder waren, was sind denn dann wohl die modernen KI-Systeme? Sind diese nicht nur Vehikel, die den Menschen in die Lage versetzen, Dinge zu tun, die er selber allein nicht könnte, sondern möglicherweise selber ein überlegener Verstand? Oder anders: Ist KI selber intelligent?

Diese Frage wird heiß debattiert. Dabei geht es nicht so sehr um die Frage, ob KI in der Lage ist, Probleme zu lösen. Das ist sie zweifelsohne. Es geht um die Frage, ob KI in der Lage ist, Probleme durch Schlussfolgern zu lösen.

Warum macht das einen Unterschied? Ich meine, man könnte ja argumentieren, dass es völlig schnurz ist, wie jemand oder etwas zu einer Lösung gelangt, Hauptsache man kommt zur Lösung. So einfach ist es aber nicht.

Erstens ist es – gerade bei künstlicher Intelligenz – wichtig zu wissen, wie deren Outputs entstehen, auch um diese „erklärbar“ zu machen. Nur wenn dieses halbwegs gelingt, wird man KI „beherrschbar“ halten können. Zweitens geht es hierbei auch um die Frage, ob KI Potenzial hat, Lösungen auch außerhalb dessen zu finden, was man schon kennt. Und hier komme ich wieder auf den Halbsatz von oben zurück:

Probleme, die man noch nicht kannte…

Wenn KI nämlich am Ende nur hieße, dass sie letztlich Gelerntes anwendet, um ein Problem zu lösen, dann ist diese Problemlösekompetenz endlich. Dann wird die Problemlösekompetenz immer ein Resultat der Menge und der Qualität der Trainingsdaten bleiben und so etwas wie Artificial General Intelligenz (AGI) kaum möglich sein.

Vor diesem Hintergrund haben nahezu alle relevanten LLMs in den letzten Monaten eigene Modelle an die Seite gestellt bekommen, die explizit als „fähig zum Schlussfolgern“ gelten. Man spricht daher inzwischen von einer eigenen Klasse, sog. Large Reasoning Models (LRMs): Claude 3.7 Sonnet Thinking, Deepseek R1, Chat GPT o3 usw.

Wir spielen relativ viel mit diesen Dingern rum, weil uns interessiert, wie gut diese künstlichen Intelligenzen in (unseren) Intelligenztests abschneiden.

Und nun erschien eine Studie eines Forscherteams von Apple, die sich auch genau dieser Frage stellte. Und diese kommt ein wenig wie ein Nüchternmacher um die Ecke: Etwas überspitzt gesagt lautet das Resultat, dass große Sprachmodelle zwar wirken, als könnten sie denken, in Wirklichkeit aber nur eine Illusion (wenngleich eine ziemlich gute) erzeugen. Aha! Da horcht man auf.

KI als Werkzeug – oder schon selbst Werkzeugmacher?

Zurücklehnen, Popcorn holen: Steve Jobs hat Computer einst als „Fahrräder für den Geist“ bezeichnet. Also als Werkzeuge, die uns helfen, schneller voranzukommen. Heute ist KI aber nicht mehr nur ein Werkzeug. Sie erschafft selbst Werkzeuge – ein faszinierender Gedanke! Große Sprachmodelle, die aus riesigen Datenmengen lernen, können plötzlich alles Mögliche: Texte schreiben, Codes basteln, komplexe Aufgaben lösen. Aber denkt so eine KI auch wirklich?

Apple sagt: „Nicht wirklich“

Apples Studie – bezeichnenderweise „The Illusion of Thinking“ genannt – hat sich genau diese Frage vorgenommen. Im Kern testete Apple große Sprachmodelle (und ihre „Reasoning-Varianten“), um zu schauen, wie gut sie wirklich Probleme lösen. Die in den letzten Monaten zunehmend in die Welt gebrachten LRMs sollen in der Lage sein, Probleme nicht nur am Ende zu lösen, sondern sich dieser Lösung auch schrittweise zu nähern. Hierbei wird oftmals von sehr guter Performance in klassischen Mathetests wie etwa dem „AIME“ (American Invitational Mathematics Examination) berichtet, einer Art Qualifikationswettbewerb für die Mathe-Olympiade in den USA. Dabei geht es dann um die Lösung etwa solcher Aufgaben:

Darin schneiden die gängigen LRM meist ziemlich gut ab. Das bestätigt auch die aktuelle Apple-Studie:

Allerdings besteht hierbei immer der Verdacht, dass die Performance der LRM in diesen Tests weniger daher rührt, dass sie die gestellten Aufgaben wirklich durch Schlussfolgern lösen, sondern dass sie diese vor allem dadurch gut lösen können, weil diese Aufgaben weitverbreitet sind und infolgedessen deren Inhalte und deren Lösungswege Einzug in Trainingsdaten genommen haben. Ein Indiz für diese These: Die LRMs schneiden z.B. in der 2025er-Version des AIME schlechter ab als in der 2024er, während menschlichen Teilnehmenden die 2025er-Variante etwas leichter fiel als die 24er. D.h. der 25er-Test schien in Summe etwas leichter zu sein als die Vorjahresversion, den LRM fiel diese dennoch schwerer, womöglich weil sie weniger Gelegenheit hatten, die neueren Inhalte zu trainieren. Auch dies würde darauf hindeuten, dass KI Probleme nicht neu erschließt und löst, sondern sie auf Basis von Wahrscheinlichkeitsaussagen bezogen auf einen enorm großen Wissensschatz „rät“. Dieses „Raten“ kann dabei sehr gut sein (also die Wahrscheinlichkeit des Treffers hoch), aber es bleibt ein Raten, kein Schlussfolgern.

Nun, der eigentliche Clou der Apple-Studie ist aber ein anderer: Die Autoren haben die verschiedenen LRMs Intelligenzspiele lösen lassen.

Konkret waren dies:

  • Turm von Hanoi
  • Checkers Jumping
  • River Crossing
  • Blocks World

Das besondere an all diesen „Spielen“: Man kann deren Komplexität und Schwierigkeit sehr feingegliedert steigern. Beim Turm von Hanoi bspw. geht es darum, einen Stapel von verschiedene großen Scheiben durch Umstapeln an anderer Stelle wieder zu errichten, wobei man nie eine größere Scheibe auf eine kleinere legen darf. Das Ziel ist natürlich, möglichst wenige Züge dafür zu benötigen. Der Schwierigkeitsgrad steigt hierbei exponentiell mit der Anzahl an Scheiben. Wer Lust hat, der kann den Turm von Hanoi auf dieser Seite selber mal in verschiedenen Schwierigkeitsgraden spielen:

https://www.mathsisfun.com/games/towerofhanoi.html

Bei drei Scheiben ist die beste Lösung (Minimum Moves) sieben Züge, bei vier Scheiben sind es 15 Züge, bei fünf Scheiben 31 usw.

Die Bilanz ist spannend:

Bei einfachen Aufgaben: Alles easy. Da brillieren sogar Standardmodelle.

Bei Aufgaben mittlerer Komplexität: Da helfen die „Chain-of-Thought“-Methoden (Schritt-für-Schritt-Denken) den KI-Modellen offenbar tatsächlich. LRMs schneiden hier besser ab als deren „nicht denkenden“ Verwandten.

Bei hochkomplexen Aufgaben: Da ist bei allen Modellen (ob mit oder ohne „Denken“) irgendwann Feierabend.

Bezieht man zusätzlich noch den „Aufwand“ ein, den die verschiedenen Modelle treiben müssen, um zu Lösungen zu kommen, wird dies noch deutlicher: Bei einfachen Problemen (beim Turm von Hanoi bis drei Scheiben) sind die „nicht denkenden“ LLMs effizienter, bei mittelschweren Problemen (vier bis zehn Scheiben) liegen die LRM klar vorn, bei schweren Aufgaben scheitern beiden Formen gleichermaßen.

Aber ist das jetzt „Denken“ bzw. „Schlussfolgern“? Hier kann man beträchtliche Zweifel anmelden, was die Studie auch tut.

Zum einen bestätigen die Befunde das sog. „Training distributiuon Problem“, was Experten wie Gary Marcus wie folgt beschreiben:

Neural networks of various kinds can generalize within a training distribution of data they are exposed to, but their generalizations tend to break down outside that distribution.

D.h. die Fähigkeit zum Problemlösen endet recht schnell bei Problemen, die man noch nicht kannte… Siehe oben.

Auch funktioniert die in LRMs verwendete Methode der „Chain-of-Thoughts“ offenbar nicht so gut, wie es manche Propheten behaupten. Diese Technik, bei der die LRMs soz. ihre Lösung schrittweise entwickeln, man ihnen also quasi beim „Denken“ zusehen kann produziert oftmals kuriose Resultate. Teilweise sehen die einzelnen Gedankenschritte korrekt aus und dann ist das ganz am Ende erfolgende Resultat – die Schlussfolgerung – trotzdem falsch. Teilweise sind die Gedankenschritte nicht richtig, aber am Ende stimmt die Antwort. Und teilweise liefern die Modelle weiter Lösungen (teilweise falsche), auch wenn sie die eigentlich richtige Antwort schon gefunden haben (sog. „Overthinking“). Hierzu habe ich selber vor einiger Zeit mal ein ganz interessantes Experiment mit einem Klötzchenturm (ähnlich aber etwas anders als beim oben genannten Blocks World-Spiel) sowie mit einer Zahlenreihe unternommen. Da konnte man dies in Teilen gut beobachten…

Drittens: Die Lösungen der vermeintlich schlussfolgernden künstlichen Intelligenz sind erheblich schlechter als dies sehr einfache Algorithmen hinbekommen. Die Lösungen beim Turm von Hanoi folgen bspw. einer letztlich gar nicht so schweren und vor allem einheitlichen Logik. Diese lässt sich lernen und diese kann recht einfach einem Computer in Form eines simplen Algos beigebracht werden. Ironischerweise liefern LLMs selber auf Nachfrage und ohne groß mit der Wimper zu zucken entsprechende Scripte aus. Folgende Sequenz zeigt einen solchen Algorithmus am Werk wie er einen Turm von Hanoi mit fünf Scheiben löst.

Wie man vorzugehen hat, erkennt man dabei beinahe schon beim Zugucken… Diese Scripte dann aber selber einfach anzuwenden, so schlau sind die LRMs dann wieder nicht…

Dass oftmals gute alte Algorithmen die viel besseren Lösungen erzielen (und dabei keine Atomkraftwerke zur Bereitstellung der nötigen Energie benötigen…) zeigt auch das jüngst viral gegangene Beispiel, bei dem ein Schachprogramm auf dem Atari 2600 aus dem Jahr 1977 (!) ChatGPT (4o) vernichtend schlug. Und damit nicht genug: Die KI wusste teilweise noch nicht einmal, welche Bewegungen die Figuren überhaupt machen dürfen… Nur in der Suche von Ausreden für die schwache Performance, da spielte Chatty dann wieder seine ganzen Stärken aus… 😉Auch in Experimenten, wo LLM gegen Gegner antreten mussten, die vollkommen sinnfreie Zufallszüge ausführten, ging die KI bei Weitem nicht in allen Fällen als Sieger vom Tisch

Manche sagen jetzt: „Na also, AGI ist tot – die Illusion von Intelligenz ist enttarnt!“ Aber so einfach ist es nicht. Klar, die Limits heutiger Modelle sind real. Aber sie können auch überraschend gut imitieren, was wir „Denken“ nennen. Vielleicht reicht das schon, um viele Aufgaben zu meistern – auch ohne Bewusstsein.

Die Diskussion um Apples Studie zeigt vor allem eins: Der Begriff „Denken“ ist dehnbarer, als wir glauben. KI-Modelle können viel, stoßen aber irgendwann an Grenzen – genau wie wir. Das heißt nicht, dass sie nur Illusion sind. Es heißt nur: Sie denken anders. Mit Mustern, Wahrscheinlichkeiten und Algorithmen.

Aber ob AGI, also eine überlegene „allgemeine künstliche Intelligenz“ jemals kommt, da sind ernsthafte Zweifel angebracht. Sind Sprachmodelle nur Papageien auf Speed – oder schon längst unsere neuen „Fahrräder für den Geist“?

Vielleicht ja beides…

2 Gedanken zu „Kann KI wirklich schlussfolgern? Ist KI „intelligent“? Bemerkenswerte Studie von Apple. Und eine Schach-Niederlage gegen einen Atari von 1977…

  1. Erinnert mich irgendwie an eine Nokia Studie in den 2000er, die waren sich sicher, dass die Nutzer keine Kamera’s in ihrem Handy haben wollen

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert