Ein neuer Wettkampf in der KI-Welt: Wer kann wirklich denken?

Künstliche Intelligenz ist längst mehr als nur ein Buzzword. Sie bestimmt unsere Zukunft in vielen Bereichen, von der Medizin über die Wirtschaft bis hin zur Unterhaltung. Doch eine Frage bleibt offen: Können Maschinen tatsächlich denken? Oder imitieren sie nur menschliches Denken, ohne es zu verstehen? Eine neue Herausforderung von Google DeepMind könnte diese Frage mit einem klaren „Nein“ beantworten – zumindest für den Moment.

Im März 2025 präsentierte Google DeepMind einen neuen Benchmark für KI-Modelle: BIG-Bench Extra Hard (BBEH). Dieser soll die Fähigkeiten von Sprachmodellen auf die Probe stellen, und eines ist jetzt schon sicher: Selbst die fortschrittlichsten KI-Modelle scheinen noch weit davon entfernt, den menschlichen Verstand zu erreichen.

Warum der neue Benchmark notwendig wurde

Der ursprüngliche Benchmark, BIG-Bench, stellte bereits enorme Anforderungen an die Modelle und wurde 2021 ins Leben gerufen, um eine Art universellen Test zu entwickeln. Doch auch die besten Modelle, wie das Modell Gemini 2.0 Flash von Google, erreichen hier bereits erstaunlich hohe Genauigkeiten von über 90 Prozent. Das ist natürlich eine beeindruckende Zahl, aber auch ein Problem: Die KI-Modelle beginnen, die Grenzen des Testverfahrens zu erreichen. Um diesen Fortschritt nicht zu stagnieren, entwickelten die Forscher den BBEH.

Im Vergleich zu seinem Vorgänger geht der BBEH noch viel weiter. Er ersetzt die bestehenden Aufgaben durch deutlich anspruchsvollere Varianten, die ein breiteres Spektrum an Denkleistungen fordern. Nun müssen die KI-Modelle nicht nur einfache Aufgaben lösen, sondern auch komplexe, langwierige Denkschritte durchführen, bei denen auch kleinere Fehler schwerwiegende Folgen haben.

Was zeigt der Vergleich der Modelle?

Es war ein echter Showdown der KI-Riesen: Google DeepMind’s Modelle wie Gemini 2.0 Flash und GPT-4o trafen auf die spezialisierten Reasoning-Modelle von OpenAI und anderen. Die Ergebnisse? Überraschend.

Das beste General-Purpose-Modell von Google, Gemini 2.0 Flash, erreicht bei den Tests lediglich 9,8 Prozent Genauigkeit, was für ein KI-Modell dieser Klasse erschreckend niedrig ist. Noch weniger überraschend ist das Ergebnis des chinesischen Modells DeepSeek R1, das in mehreren Aufgaben so schlecht abschneidet, dass es nicht einmal eine Antwort liefern kann. Und doch gibt es einen Gewinner: OpenAI’s o3-mini (high) übertrifft die Konkurrenz bei vielen Tests, besonders bei der Lösung formaler Aufgaben. Doch auch dieses Modell zeigt bei komplexeren, weichen Denkanforderungen – wie etwa Humor oder kausales Verständnis – deutliche Schwächen.

Die Tests zeigen klar: Die aktuelle KI ist bei formalisierten Aufgaben wie Zählen oder logischen Problemen hervorragend, doch bei der Komplexität menschlichen Denkens, etwa bei der Unterscheidung zwischen relevanten und irrelevanten Informationen, stößt sie schnell an ihre Grenzen.

Warum es noch lange nicht reicht, „den Kopf in die Wolken zu stecken“

Was bedeutet das alles für die Zukunft der KI? Trotz beeindruckender Fortschritte bleibt die KI in vielen Bereichen weit hinter unseren Erwartungen zurück. Sie kann in Formeln und Strukturen brillieren, versagt jedoch bei der Interpretation von Kontexten oder der Verarbeitung von Gefühlen und Erfahrungen – Dinge, die den menschlichen Verstand ausmachen.

Der Weg zu einer KI, die wirklich „denkt“, scheint noch weit und steinig. Google DeepMind und OpenAI haben enorme Fortschritte gemacht, doch es ist offensichtlich, dass die Forschung noch viel zu tun hat, bevor wir eine KI haben, die auch nur annähernd die Komplexität menschlichen Denkens erreicht.

Der wahre Sprung in der KI: Warum Geschwindigkeit allein nicht reicht

Obwohl die Fortschritte in der KI-Forschung unbestreitbar sind, kann man sich fragen, ob wir nicht einfach nur „die Maschinen schärfer machen“, um immer schnellere und präzisere Antworten zu erhalten – während wir das eigentliche Ziel aus den Augen verlieren. Es geht nicht nur darum, dass Maschinen Aufgaben schneller und genauer erledigen, sondern dass sie verstehen, was sie tun. Der wahre Sprung wird nicht dann kommen, wenn Maschinen schneller zählen können, sondern wenn sie tatsächlich begreifen, was sie tun – und dafür ist noch viel Arbeit nötig. Bis dahin bleibt uns nur, gespannt zu beobachten, wie sich dieser Wettlauf entwickelt.

Zum Newsletter anmelden

und immer aktuell im Datenschutz informiert.