KI-Logbuch
Inspiration, Entdeckungen, Anwendungen
Emergenz: wie Sprachmodelle plötzlich Dinge können, die niemand erwartet hat
Created on 2024-12-03 18:03
Published on 2024-12-04 05:00
–>> Wer Englisch spricht, kann diesen Newsletter auch hören statt lesen: click here to listen to an AI-generated Podcast version of this newsletter. <<–
Liebe Neugierige, Kreative, Entdecker*innen,
ich habe mich schon im September mit multimodalen KI Systemen beschäftigt und dabei immer wieder gefragt, inwiefern diese Fähigkeiten vielleicht ja latent immer schon den Foundation Modellen inhärent inne gewohnt haben könnten. Sprich: ist es vielleicht eher so, dass KI Modelle mit ihrer immer größeren Skalierung „automatisch“ neue Fähigkeiten quasi aus dem Nichts entwickeln – naja, ok, also eher daraus, dass sie einfach nur größer werden, mit immer mehr Daten. Diese unerwarteten Fähigkeiten, die weit über die ursprüngliche Programmierung solcher Modelle hinausgehen finde ich extrem faszinierend. Mittlerweile gibt es ganze Bereiche in Forschung und Industrie, die sich allein nur mit diesem Bereich, der zufällig aus den Modellen erwachsenen Fähigkeiten beschäftigen. Diese „emergenten Fähigkeiten“ werfen für mich nicht nur spannende Fragen auf, sondern eröffnen auch den Unternehmen neue Perspektiven für die Zukunft der künstlichen Intelligenz. Nobelpreisträger für Physik (1977), Philip Warren Anderson, fasste „Emergenz“ sehr greifbar zusammen:
„In jedem Stadium entsteht die Welt, die wir wahrnehmen, durch »Emergenz«. /…/ Eine Zelle ist noch kein Tiger. Ebensowenig ist ein einzelnes Goldatom gelb und glänzend.“
Was passiert da gerade, welche Erklärungen gibt es momentan und welche Forscher sind hier gerade besonders aktiv? Ich habe mich für Euch mal schlau gemacht.
Emergente Fähigkeiten: Wenn KI uns überrascht
Große Sprachmodelle entwickeln zunehmend Fähigkeiten, die selbst ihre Entwickler in Erstaunen versetzen. Ethan Dyer, Google Research:
“Obwohl ich Überraschungen erwarte, bin ich dennoch überrascht, was diese Modelle alles können”
Besonders bemerkenswert ist dabei ihre unerwartete Kreativität bei der Problemlösung sowie ihr spontanes Verständnis von Sprachen, auf die sie nie explizit trainiert wurden. Dies wird durch die MacGyver-Studie belegt, die die kreativen Problemlösungsfähigkeiten von LLMs in über 1.600 realen Problemszenarien untersuchte. Noch erstaunlicher sind ihre komplexen mathematischen Fähigkeiten und sogar die Möglichkeit, als Linux-Terminal zu fungieren. Ein DeepMind-Ingenieur berichtete, dass er ChatGPT davon überzeugen konnte, als Linux-Terminal zu fungieren und mathematische Berechnungen durchzuführen – sogar schneller als ein echtes Linux-System. Diese beeindruckenden Fähigkeiten manifestieren sich besonders bei Modellen mit Hunderten von Milliarden Parametern und treten oft erst ab einer bestimmten Modellgröße auf. Bei etwa 5% der Aufgaben treten emergente Fähigkeiten bei großen Modellen als „Durchbrüche“ auf – schnelle, dramatische Leistungssprünge ab einer bestimmten Größenschwelle. Diese Schwelle variiert je nach Aufgabe und Modell. Besonders deutlich wird dies bei Modellen mit Hunderten von Milliarden Parametern, wie GPT-3 mit 175 Milliarden oder PaLM mit bis zu 540 Milliarden Parametern. Laut einer Google Research Studie zeigt PALM „breakthrough capabilities“ und überlegene Leistung in 28 von 29 getesteten Aufgaben. Besonders bei Reasoning-Aufgaben werden diese Durchbrüche durch die Kombination von Modellgröße mit speziellen Prompting-Techniken erreicht
Unternehmen wie Amazon beschäftigen mittlerweile ein eigenes AGI-Team, das emergente Fähigkeiten in ihren Modellen untersucht. Ähnliches mutmaße ich auch in anderen Unternehmen.
Wissenschaftliche Perspektiven
Double Descent Phänomen
Eine vielversprechende Erklärung für emergentes Verhalten liefert „Double Descent„. Das Phänomen ist mittlerweile gut dokumentiert. Es beschreibt, dass bei zunehmender Modellkomplexität sich die Leistung zunächst verbessert, sich dann wieder verschlechtert und schließlich wieder deutlich verbessert. Damit widerspricht der „Double Decent“ der klassischen Annahme, dass zu große Modelle grundsätzlich schlechtere Ergebnisse liefern. Gleichzeitig widerlegt es aber auch die moderne ML-Vorstellung, dass größere Modelle immer besser sind. Double Descent tritt in verschiedenen Arten von Deep-Learning-Modellen auf, darunter CNNs, ResNets und Transformers. Der kritische Punkt liegt dabei genau an der Schwelle, an der das Modell gerade groß genug ist, um die Trainingsdaten zu verarbeiten.
Besondere Eigenschaften
-
Das Phänomen zeigt sich sowohl in Bezug auf die Modellgröße als auch auf die Trainingszeit.
-
Interessanterweise können in bestimmten Bereichen mehr Trainingsdaten sogar zu schlechteren Ergebnissen führen.
-
Der Effekt ist besonders deutlich zu beobachten, wenn Rauschen in den Trainingsdaten vorhanden ist.
Die genauen Mechanismen hinter dem Double Descent Phänomen sind noch nicht vollständig verstanden und bleiben ein wichtiges Forschungsthema in der KI-Entwicklung. Und an diesem Thema wird momentan viel geforscht.
Forschung
Seit dem Aufkommen emergenter Fähigkeiten hat sich hier ein spannendes Forschungsfeld entfaltet, für das ich nachfolgend einmal drei der bekanntesten Forscher und ihre Forschungsbeiträge gelistet habe. Sie stechen in der Bedeutung ihrer Arbeit für dieses recht neue Feld der emergenten KI-Fähigkeiten besonders hervor:
-
Ethan Dyer von Google Research hat wichtige Tests zu unerwarteten Fähigkeiten von KI-Modellen organisiert und dokumentiert. Seine Arbeit ist besonders bedeutsam, da er einer der ersten war, der sich systematisch mit den überraschenden Fähigkeiten großer Sprachmodelle beschäftigte.
-
Rishi Bommasani von der Stanford University hat maßgeblich zur Dokumentation emergenter Verhaltensweisen beigetragen. Er erstellte eine umfangreiche Liste von Dutzenden emergenter Verhaltensweisen und setzt diese Arbeit kontinuierlich fort.
-
Sanmi Koyejo, ebenfalls von Stanford University, hat mit seiner kritischen Forschung für Aufsehen gesorgt. Er argumentiert, dass die scheinbar plötzlich auftretenden Fähigkeiten eher auf die Art der Messung zurückzuführen sind als auf tatsächlich unvorhersehbare Sprünge in den Fähigkeiten der Modelle.
Herausforderungen
Die Wissenschaft arbeitet intensiv daran, diese emergenten Phänomene zu verstehen. Die Übertragung von Erkenntnissen aus kleineren Modellen auf große Sprachmodelle gestaltet sich schwierig. Während kleinere Modelle besser kontrollier- und analysierbar sind, zeigen große Modelle oft unerwartete Verhaltensweisen. Das war ein Ergebnis der Studie „Investigating Transferability in Pretrained Language Models“
„Parameter, die eine enorme Leistungsverbesserung bewirken, wenn viele Daten vorhanden sind, können in einer datenarmen Umgebung vernachlässigbare Vorteile bringen.“
Diese emergenten Fähigkeiten sind ein „zweischneidiges Schwert“: Sie bieten einerseits enormes Potenzial für neue, kreative Anwendungen, bergen aber auch Risiken hinsichtlich unvorhersehbarer Verhaltensweisen und damit auch ihrer Zuverlässigkeit. In diesem Zusammenhang kommt der „Internationale Verband der Datenschutzbeauftragten“ zu dem Schluss:
„Es ist von entscheidender Bedeutung, diese sich entwickelnde Landschaft sorgfältig zu navigieren, um die Vorteile der neu entstehenden Fähigkeiten der KI zu nutzen und gleichzeitig die Privatsphäre, die Ethik und das gesellschaftliche Wohlergehen zu schützen.“
Zukunftsperspektiven 2034
Forscher arbeiten intensiv daran, emergente Fähigkeiten besser zu verstehen und vorherzusagen, das haben wir bereits gesehen. Ein besonderer Fokus liegt dabei auf der Entwicklung von Methoden, die es ermöglichen, diese Fähigkeiten gezielt zu nutzen und gleichzeitig potenzielle Risiken zu minimieren.
Technologische Entwicklungen
Die Zukunft der KI verspricht spannende Entwicklungen: Multimodale KI-Systeme werden Text, Bild und Ton nahtlos integrieren können. Interaktive KI-Systeme werden in der Lage sein, komplexe Aufgaben zu delegieren und auszuführen – Stichwort: Agentische KI. Besonders vielversprechend ist der Einsatz von KI zur Lösung globaler Herausforderungen wie beispielsweise Klimawandel und Gesundheitsversorgung.
Regulierung und Sicherheit
Auch, wenn es in Deutschland ein paar Menschen noch nicht mitbekommen haben und denken sie „hätten’s erfunden“: die EU hat bereits konkrete Schritte zur Regulierung von KI-generierten Inhalten unternommen und Anfang 2024 in Form des „EU AI Act“ in eine juristisch verbindliche Form gebracht. Besonders relevant ist hier beispielsweise Artikel 52, der vorschreibt, dass KI-generierte oder manipulierte Inhalte als solche gekennzeichnet werden müssen. Für einen verantwortungsvollen Umgang ist regelmäßiges Testing auf unerwartete Verhaltensweisen ebenfalls unerlässlich. Genau, wie die Implementierung robuster Sicherheitsmaßnahmen, die sorgfältige Dokumentation neuer Fähigkeiten sowie der Einsatz vom bereits lange erprobtem „Chain-of-Thought“ Prompting für bessere Kontrolle.
Wir werden also 2025 auch an diesen Themen noch jede Menge Arbeit haben, um die emergenten Fähigkeiten von KI Systemen möglichst vollumfänglich nutzbar zu machen und gleichzeitig die Risiken zu minimieren.
Was bleibt?
Emergente Fähigkeiten generativer KI sind gleichzeitig Chance und Herausforderung. Während sie einerseits völlig neue Möglichkeiten eröffnen, erfordern sie andererseits einen bewussten und verantwortungsvollen Umgang. Die kommenden Jahre werden entscheidend sein für die Gestaltung dieser Technologie im Dienste von uns – den Menschen. Schaut hinaus, in diese Welt, bleibt neugierig, reflektierend, kreativ. Dann packen wir das. Oder wie Alexander von Humboldt es formuliert:
„Die gefährlichste aller Weltanschauungen ist die Weltanschauung der Leute, welche die Welt nicht angeschaut haben.“
Was denkt ihr über diese Entwicklungen? Welche Chancen und Herausforderungen seht ihr?
Lasst uns in den Kommentaren darüber diskutieren!
Euer Arno
Emergence: how language models can suddenly do things that nobody expected
–>> Special Service for English language readers: click here to listen to an AI-generated Podcast version of this newsletter. <<–
Dear curious, creatives & explorers,
in September I focused on multimodal AI systems and repeatedly asked myself to what extent these capabilities might have always been inherently latent in foundation models. In other words: is it perhaps more the case that AI models with their ever-increasing scaling „automatically“ develop new capabilities seemingly out of nowhere – well, okay, rather from simply getting bigger, with more data. I find these unexpected capabilities, which go far beyond the original programming of such models, extremely fascinating. By now, entire fields in research and industry are dedicated solely to this area of accidentally emerging capabilities from these models. For me, these „emergent capabilities“ not only raise exciting questions but also open up new perspectives for companies regarding the future of artificial intelligence. Nobel Prize winner in Physics (1977), Philip Warren Anderson, summarized „emergence“ very tangibly:
„At each stage, the world we perceive emerges through ‚emergence‘. /…/ A cell is not yet a tiger. Similarly, a single gold atom is not yellow and shiny.“
What’s happening right now, what explanations are currently available, and which researchers are particularly active here? I’ve done some research for you.
Emergent Capabilities: When AI Surprises Us
Large language models are increasingly developing capabilities that astonish even their developers. Ethan Dyer, Google Research:
„Although I expect surprises, I’m still surprised by what these models can do.“
Particularly remarkable is their unexpected creativity in problem-solving and their spontaneous understanding of languages they were never explicitly trained on. This is evidenced by the MacGyver study, which examined the creative problem-solving abilities of LLMs in over 1,600 real-world problem scenarios. Even more astonishing are their complex mathematical capabilities and even the ability to function as a Linux terminal. A DeepMind engineer reported that he convinced ChatGPT to function as a Linux terminal and perform mathematical calculations – even faster than a real Linux system.These impressive capabilities manifest particularly in models with hundreds of billions of parameters and often only emerge at a certain model size. In about 5% of tasks, emergent capabilities appear in large models as „breakthroughs“ – rapid, dramatic performance jumps above a certain size threshold. This threshold varies depending on the task and model. This becomes particularly evident in models with hundreds of billions of parameters, like GPT-3 with 175 billion or PaLM with up to 540 billion parameters. According to a Google Research study, PALM shows „breakthrough capabilities“ and superior performance in 28 out of 29 tested tasks. These breakthroughs are achieved especially in reasoning tasks through the combination of model size with special prompting techniques.
Companies such as Amazon now employ their own AGI team to investigate emergent capabilities in their models. I suspect similar things are happening in other companies.
Scientific perspectives
Double descent phenomenon
One promising explanation for emergent behavior is „double descent„. The phenomenon is now well documented. It describes the fact that as model complexity increases, performance initially improves, then deteriorates and finally improves again significantly. The „double decent“ thus contradicts the classic assumption that models that are too large generally deliver poorer results. At the same time, however, it also refutes the modern ML idea that larger models are always better. Double descent occurs in various types of deep learning models, including CNNs, ResNets and Transformers. The critical point is exactly at the threshold where the model is just large enough to process the training data.
Special properties
-
The phenomenon is evident both in terms of model size and training time.
-
Interestingly, more training data can even lead to poorer results in certain areas.
-
The effect is particularly noticeable when noise is present in the training data.
The exact mechanisms behind the double descent phenomenon are not yet fully understood and remain an important research topic in AI development. And a lot of research is currently being carried out on this topic.
Research
Seit dem Aufkommen emergenter Fähigkeiten hat sich hier ein spannendes Forschungsfeld entfaltet, für das ich nachfolgend einmal drei der bekanntesten Forscher und ihre Forschungsbeiträge gelistet habe. Sie stechen in der Bedeutung ihrer Arbeit für dieses recht neue Feld der emergenten KI-Fähigkeiten besonders hervor:
-
Ethan Dyer von Google Research hat wichtige Tests zu unerwarteten Fähigkeiten von KI-Modellen organisiert und dokumentiert. Seine Arbeit ist besonders bedeutsam, da er einer der ersten war, der sich systematisch mit den überraschenden Fähigkeiten großer Sprachmodelle beschäftigte.
-
Rishi Bommasani von der Stanford University hat maßgeblich zur Dokumentation emergenter Verhaltensweisen beigetragen. Er erstellte eine umfangreiche Liste von Dutzenden emergenter Verhaltensweisen und setzt diese Arbeit kontinuierlich fort.
-
Sanmi Koyejo, ebenfalls von Stanford University, hat mit seiner kritischen Forschung für Aufsehen gesorgt. Er argumentiert, dass die scheinbar plötzlich auftretenden Fähigkeiten eher auf die Art der Messung zurückzuführen sind als auf tatsächlich unvorhersehbare Sprünge in den Fähigkeiten der Modelle.
Challenges
Scientists are working hard to understand these emergent phenomena. It is difficult to transfer findings from smaller models to large language models. While smaller models are easier to control and analyze, large models often exhibit unexpected behavior. This was one of the findings of the study „Investigating Transferability in Pretrained Language Models“
„Parameters that provide a huge performance improvement when a lot of data is available can provide negligible benefits in a data-poor environment.“
These emergent capabilities are a „double-edged sword„: on the one hand, they offer enormous potential for new, creative applications, but they also harbour risks in terms of unpredictable behavior and thus also their reliability. In this context, the „International Association of Privacy Professionals“ comes to the following conclusion:
„It is critical to carefully navigate this evolving landscape to take advantage of AI’s emerging capabilities while protecting privacy, ethics and societal well-being.“
Future prospects 2034
Researchers are working hard to better understand and predict emergent capabilities, as we have already seen. A particular focus is on developing methods that make it possible to make targeted use of these capabilities while minimizing potential risks.
Technological developments
The future of AI promises exciting developments: Multimodal AI systems will be able to seamlessly integrate text, images and sound. Interactive AI systems will be able to delegate and carry out complex tasks – keyword: agentic AI. The use of AI to solve global challenges such as climate change and healthcare is particularly promising.
Regulation and security
Even if a few people in Germany have not yet noticed and think they „invented it“: the EU has already taken concrete steps to regulate AI-generated content and made it legally binding in the form of the „EU AI Act“ at the beginning of 2024. Particularly relevant here is Article 52, for example, which stipulates that AI-generated or manipulated content must be labeled as such. Regular testing for unexpected behavior is also essential for responsible handling. Just like the implementation of robust security measures, the careful documentation of new capabilities and the use of tried-and-tested „chain-of-thought“ prompting for better control.
So in 2025, we will still have a lot of work to do on these topics in order to make the emergent capabilities of AI systems as fully usable as possible while minimizing the risks.
What remains?
Emergent capabilities of generative AI are both an opportunity and a challenge. While they open up completely new possibilities, they also require a conscious and responsible approach. The coming years will be decisive in shaping this technology in the service of us – the people. Look out into this world, stay curious, reflective and creative. Then we can do it. Or as Alexander von Humboldt put it:
„The most dangerous of all worldviews is the worldview of people who have not looked at the world.“
What do you think about these developments? What opportunities and challenges do you see?
Let’s discuss them in the comments!
Yours Arno