Emergenz: wie Sprachmodelle plötzlich Dinge können, die niemand erwartet hat
–>> Wer Englisch spricht, kann diesen Newsletter auch hören statt lesen: click here to listen to an AI-generated Podcast version of this newsletter. <<–
Liebe Neugierige, Kreative, Entdecker*innen,
ich habe mich schon im September mit multimodalen KI Systemen beschäftigt und dabei immer wieder gefragt, inwiefern diese Fähigkeiten vielleicht ja latent immer schon den Foundation Modellen inhärent inne gewohnt haben könnten. Sprich: ist es vielleicht eher so, dass KI Modelle mit ihrer immer größeren Skalierung „automatisch“ neue Fähigkeiten quasi aus dem Nichts entwickeln – naja, ok, also eher daraus, dass sie einfach nur größer werden, mit immer mehr Daten. Diese unerwarteten Fähigkeiten, die weit über die ursprüngliche Programmierung solcher Modelle hinausgehen finde ich extrem faszinierend. Mittlerweile gibt es ganze Bereiche in Forschung und Industrie, die sich allein nur mit diesem Bereich, der zufällig aus den Modellen erwachsenen Fähigkeiten beschäftigen. Diese „emergenten Fähigkeiten“ werfen für mich nicht nur spannende Fragen auf, sondern eröffnen auch den Unternehmen neue Perspektiven für die Zukunft der künstlichen Intelligenz. Nobelpreisträger für Physik (1977), Philip Warren Anderson, fasste „Emergenz“ sehr greifbar zusammen:
„In jedem Stadium entsteht die Welt, die wir wahrnehmen, durch »Emergenz«. /…/ Eine Zelle ist noch kein Tiger. Ebensowenig ist ein einzelnes Goldatom gelb und glänzend.“
Was passiert da gerade, welche Erklärungen gibt es momentan und welche Forscher sind hier gerade besonders aktiv? Ich habe mich für Euch mal schlau gemacht.
Emergente Fähigkeiten: Wenn KI uns überrascht
Große Sprachmodelle entwickeln zunehmend Fähigkeiten, die selbst ihre Entwickler in Erstaunen versetzen. Ethan Dyer, Google Research:
“Obwohl ich Überraschungen erwarte, bin ich dennoch überrascht, was diese Modelle alles können”
Besonders bemerkenswert ist dabei ihre unerwartete Kreativität bei der Problemlösung sowie ihr spontanes Verständnis von Sprachen, auf die sie nie explizit trainiert wurden. Dies wird durch die MacGyver-Studie belegt, die die kreativen Problemlösungsfähigkeiten von LLMs in über 1.600 realen Problemszenarien untersuchte. Noch erstaunlicher sind ihre komplexen mathematischen Fähigkeiten und sogar die Möglichkeit, als Linux-Terminal zu fungieren. Ein DeepMind-Ingenieur berichtete, dass er ChatGPT davon überzeugen konnte, als Linux-Terminal zu fungieren und mathematische Berechnungen durchzuführen – sogar schneller als ein echtes Linux-System. Diese beeindruckenden Fähigkeiten manifestieren sich besonders bei Modellen mit Hunderten von Milliarden Parametern und treten oft erst ab einer bestimmten Modellgröße auf. Bei etwa 5% der Aufgaben treten emergente Fähigkeiten bei großen Modellen als „Durchbrüche“ auf – schnelle, dramatische Leistungssprünge ab einer bestimmten Größenschwelle. Diese Schwelle variiert je nach Aufgabe und Modell. Besonders deutlich wird dies bei Modellen mit Hunderten von Milliarden Parametern, wie GPT-3 mit 175 Milliarden oder PaLM mit bis zu 540 Milliarden Parametern. Laut einer Google Research Studie zeigt PALM „breakthrough capabilities“ und überlegene Leistung in 28 von 29 getesteten Aufgaben. Besonders bei Reasoning-Aufgaben werden diese Durchbrüche durch die Kombination von Modellgröße mit speziellen Prompting-Techniken erreicht
Unternehmen wie Amazon beschäftigen mittlerweile ein eigenes AGI-Team, das emergente Fähigkeiten in ihren Modellen untersucht. Ähnliches mutmaße ich auch in anderen Unternehmen.
Wissenschaftliche Perspektiven
Double Descent Phänomen
Eine vielversprechende Erklärung für emergentes Verhalten liefert „Double Descent„. Das Phänomen ist mittlerweile gut dokumentiert. Es beschreibt, dass bei zunehmender Modellkomplexität sich die Leistung zunächst verbessert, sich dann wieder verschlechtert und schließlich wieder deutlich verbessert. Damit widerspricht der „Double Decent“ der klassischen Annahme, dass zu große Modelle grundsätzlich schlechtere Ergebnisse liefern. Gleichzeitig widerlegt es aber auch die moderne ML-Vorstellung, dass größere Modelle immer besser sind. Double Descent tritt in verschiedenen Arten von Deep-Learning-Modellen auf, darunter CNNs, ResNets und Transformers. Der kritische Punkt liegt dabei genau an der Schwelle, an der das Modell gerade groß genug ist, um die Trainingsdaten zu verarbei