Apple-Forscher legen die „Illusion des Denkens“ offenBorns IT- und Windows-Blog


Es ist ein Forschungspapier, welches in den letzten Stunden zu regen Diskussionen bei AI-Beobachtern geführt hat. Apple-Forscher diskutieren in einem Papier die Möglichkeiten und Grenzen der neuesten Large (Reasoning) Language Modelle, von denen ja angenommen wird,  dass diese möglicherweise “denken zu können”. Beim Papier bleibt von dieser Vermutung wenig übrig.

Im Abstrakt des Papers heißt es, dass neuere Generationen von Frontier-Sprachenmodellen “Large Reasoning Models” (LRMs) eingeführt haben, die detaillierte Denkprozesse generieren, bevor sie Antworten liefern. Während diese Modelle
zwar eine verbesserte Leistung bei Reasoning-Benchmarks zeigen, sind ihre grundlegenden Fähigkeiten, Skalierungseigenschaften und Grenzen jedoch noch nicht ausreichend bekannt.

Derzeitige Evaluierungen konzentrieren sich in erster Linie auf etablierte mathematische und kodierende Benchmarks und betonen die Genauigkeit der endgültigen Antworten. Dieses Evaluierungsparadigma leidet, laut den Apple-Forschern, jedoch häufig unter Datenverunreinigungen und liefert keine Erkenntnisse und Einblicke in die Struktur und Qualität der Argumentationsspuren.

Apple on AI models

In der Forschungsarbeit mit dem Titel The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity werden diese Lücken systematisch mit Hilfe von kontrollierbaren “Rätselumgebungen” untersucht. Diese Umgebungen ermöglichen eine präzise Manipulation der kompositorischen Komplexität unter Beibehaltung konsistenter logischer Strukturen.

Dieser Aufbau ermöglicht den Forschern zufolge die Analyseder endgültigen Antworten, sondern auch der internen Argumentationsspuren, was Einblicke in die Art und Weise bietet, wie LRMs „denken”.

Durch umfangreiche Experimente mit verschiedenen Rätseln zeigen die Forscher, dass LRMs an der Grenze jenseits bestimmter Komplexitäten einen vollständigen Genauigkeitseinbruch erleben.

Darüber hinaus weisen sie eine kontraintuitive Skalierungsgrenze auf: Ihr Denkaufwand steigt bis zu einem gewissen Punkt mit der Problemkomplexität, dann sinkt er trotz eines angemessenen Token-Budgets.

Durch den Vergleich von LRMs mit ihren Standard-LLM mit ihren Standard-LLM-Pendants unter gleichwertigen Inferenzberechnungen identifizieren die Forscher drei Leistungsbereiche:

(1) Aufgaben mit geringer Komplexität, bei denen Standardmodelle überraschenderweise besser abschneiden als LRMs,

(2) Aufgaben mit mittlerer Komplexität, bei denen zusätzliches Denken in LRMs
einen Vorteil darstellt, und

(3) Aufgaben hoher Komplexität bei denen beide Modelle vollständig zusammenbrechen.

Die Forscher haben dabei festgestellt, dass LRMs bei der exakten Berechnung keine expliziten Algorithmen verwenden und denken bei allen Rätseln inkonsistent ist. Die Forscher untersuchen in ihrer Arbeit auch die Argumentationsspuren eingehender, indem sie die Muster der erforschten Lösungen untersuchen und das Berechnungsverhalten der Modelle analysieren, um ihre Stärken und Grenzen zu beleuchten. Die Ergebnisse werfen schließlich entscheidende Fragen über die wahren Denkfähigkeiten der neuen Sprachmodelle auf. In diesem Artikel ordnet jemand das Forschungsergebnisse ein.



law

law
4
Berita Olahraga

Lowongan Kerja

Berita Terkini

Berita Terbaru

Berita Teknologi

Seputar Teknologi

Berita Politik

Resep Masakan

Pendidikan

Leave a Reply

Your email address will not be published. Required fields are marked *