KI-Logbuch
Inspiration, Entdeckungen, Anwendungen
Kommt das Ende der Ära „LLM“? Warum KI-Guru LeCun in LLMs eine Sackgasse sieht.
Created on 2025-05-02 13:13
Published on 2025-05-07 05:08
Liebe Neugierige, Kreative, Entdecker*innen,
das ging letzte Woche wie ein massiver Ruck durch die AI Communities: Yann LeCun, Turing Award Träger (sowas wie der Nobel Preis für Informatik) von 2019, einer der „Paten der KI“ und Chef-KI-Wissenschaftler bei Meta, sorgte für Aufregung und Denkanstöße. Während viele jetzt gerade erst zur neuen Realität großer Sprachmodelle aufwachen und alle Augen auf die Skalierung aktueller Modelle wie GPT oder Claude gerichtet sind, skizziert LeCun schon seit längerer Zeit bereits einen alternativen Pfad für die Zukunft der künstlichen Intelligenz. Seine Thesen sind teils technisch, aber fundamental wichtig, um zu verstehen, wohin unsere gemeinsame KI-Reise gehen könnte – jenseits des aktuellen Hypes um Large Language Models (LLMs). Erinnerst Du Dich noch an meine Bestandsaufnahme zur generativen KI im KI-Logbuch „Was kommt jetzt bei generativer KI?“, vom 29.09.2024? LeCun geht nun einen Schritt weiter und stellt einige der damals noch gefeierten Ansätze in Frage. Er sagte einmal sinngemäß:
„Die populärsten Ideen sind nicht immer die besten.“
Lasst uns also gemeinsam erkunden, welche Weichen LeCun für die KI stellen möchte.
LeCun’s Kompass: Ein neuer Kurs für die KI-Forschung?
Yann LeCun argumentiert seit Längerem, dass der aktuelle Fokus auf autoregressive LLMs – Modelle, die primär lernen, das nächste Wort in einem Satz vorherzusagen – nicht zu menschenähnlicher Intelligenz oder gar Artificial General Intelligence (AGI) führen wird. Diesen Modellen fehle ein grundlegendes Verständnis der Welt, Kausalität und die Fähigkeit zu echter Planung und logischem Denken. Sie seien brillante Papageien, aber eben keine denkenden Wesen. Stattdessen plädiert LeCun vehement für Ansätze, die darauf abzielen, dass KI-Systeme sogenannte „Weltmodelle“ lernen. Das bedeutet, die KI soll ein internes Verständnis der Funktionsweise der Welt entwickeln – einschließlich physikalischer Gesetze und logischer Zusammenhänge. Nur so könnten Maschinen wirklich lernen, zu planen, zu schlussfolgern und robust mit unvorhergesehenen Situationen umzugehen. Ein zentraler Baustein hierfür ist für ihn das selbstüberwachte Lernen (Self-Supervised Learning, SSL), bei dem Modelle aus unstrukturierten Daten lernen, ohne explizite Labels zu benötigen. Ein von ihm maßgeblich mitentwickelter Ansatz ist die Joint-Embedding Predictive Architecture (JEPA), die darauf abzielt, abstrakte Repräsentationen der Welt zu lernen, anstatt nur auf Pixelebene Vorhersagen zu treffen.
Abschied von alten Bekannten? LeCun’s konkrete Empfehlungen
Aus dieser Grundüberzeugung leitet LeCun eine Reihe konkreter, teils provokanter Empfehlungen für die KI-Forschung ab, die er kürzlich erneut formulierte. Diese stellen populäre Methoden in Frage und skizzieren eine alternative Roadmap:
-
Weg von Generativen Modellen, hin zu Joint-Embedding Architekturen (JEPA): Statt Modellen, die primär neue Daten (Text, Bilder) generieren, favorisiert LeCun Architekturen wie JEPA. Diese lernen, Beziehungen und Ähnlichkeiten zwischen Datenpunkten in einem „eingebetteten“ Raum zu verstehen und können so abstraktere Weltrepräsentationen bilden, was als Grundlage für besseres Schlussfolgern gilt. In einem solchen Raum wäre dann beispielsweise das Bild eines Pudels in der Nähe des Wortes „Pudel“.
-
Weg von Probabilistischen Modellen, hin zu Energy-Based Models (EBMs): Probabilistische Modelle schätzen Wahrscheinlichkeitsverteilungen, was oft komplex und rechenintensiv ist. EBMs weisen verschiedenen Zuständen oder Konfigurationen eine „Energie“ zu und lernen, konsistenten oder plausiblen Zuständen niedrige Energie und inkonsistenten hohe Energie zuzuordnen. Dies sei flexibler und besser geeignet, um komplexe Abhängigkeiten in der Welt zu modellieren.
-
Weg von Contrastive Learning, hin zu Regularisierten Methoden: Contrastive Learning zwingt das Modell oft, feine Unterschiede zwischen sehr ähnlichen Dingen zu lernen, was LeCun für ineffizient hält. Er bevorzugt regularisierte Methoden (wie solche, die in JEPA verwendet werden), die das Modell ermutigen, informative Repräsentationen zu lernen, ohne es explizit zum Unterscheiden zu zwingen, was zu robusteren Ergebnissen führen könne.
-
Weg vom universellen Einsatz von Reinforcement Learning (RL), hin zu Model-Predictive Control (MPC): RL durch Versuch und Irrtum sei extrem datenineffizient. Stattdessen sollten Agenten Weltmodelle nutzen, um Aktionen zu planen (wie bei „Model Predictive Control“ – MCP). RL solle nur dann eingesetzt werden, wenn die Vorhersagen des Weltmodells fehlschlagen, um das Modell oder den „Kritiker“ (der die Plausibilität bewertet) anzupassen. Kurz noch etwas zu „MCP“, denn das war mir beim Recherchieren so nicht ganz klar – der Begriff besitzt mehrfache Bedeutungen und wird von LeCun sehr speziell bezogen auf KI verwendet:
Model-Predictive Control ist erst einmal ein Regelungsansatz aus der Automatisierungstechnik. Das Grundprinzip:
-
Man hat ein Modell (meist ein mathematisches oder, im KI-Kontext, ein lernbares/neuronales Modell) des zu steuernden Systems.
-
Der Controller „denkt voraus“: Er berechnet eine optimale Folge von Steuerungsaktionen über einen kurzen Zeithorizont in die Zukunft (ein „Zeitfenster“).
-
Von diesen geplanten Aktionen wird aber normalerweise nur die erste ausgeführt, danach werden Umwelt und System erneut beobachtet (Feedback), das Modell ggf. angepasst und der Prozess beginnt von vorn.
-
Die Planung berücksichtigt dabei verschiedene Zielsetzungen (z.B. möglichst schnelle Zielerreichung, Sicherheit, Komfort) und systembedingte Einschränkungen.
LeCun’s Sichtweise auf MPC
Wenn LeCun von MPC spricht, meint er Folgendes:
-
Vorausschauendes Handeln: Eine intelligente Maschine (z.B. ein Roboter oder ein autonomes Fahrzeug) nutzt ein internes Modell seiner Umwelt, um zu simulieren, wie sich verschiedene Handlungen in Zukunft „auszahlen“ könnten.
-
Optimierung durch Simulation: Das Modell ermöglicht es dem System, viele mögliche Zukunftspfade durchzuspielen (also zu „sehen“, was passieren könnte), und die beste Handlungsabfolge zu wählen.
-
Online-Planung: Dieser Prozess wird ständig wiederholt, indem das System laufend neue Informationen bekommt und die Planung entsprechend anpasst.
LeCun sieht MPC als wichtigen Baustein für wirklich autonome, intelligente Systeme, weil reines reaktives Verhalten (wie es viele heutige KI-Modelle zeigen) nicht genügt, um komplexe Aufgaben flexibel und vorausschauend zu lösen.
5. Weg von LLMs als Pfad zu Human-Level AI: LeCun betont immer wieder, dass LLMs allein, da sie primär auf Text trainiert sind und keine inhärente Verankerung in der Realität haben, keine menschenähnliche Intelligenz erreichen werden. Der Fokus müsse auf Architekturen liegen, die multimodal lernen (also verschiedene Sinne wie Sehen und Hören integrieren) und über Planungs- und Reasoning-Fähigkeiten verfügen.
Schon gewusst?
Yann LeCun prägte den Begriff „Energy-Based Models“ (EBMs) maßgeblich mit und sieht darin eine grundlegende Alternative zu probabilistischen Ansätzen, die seiner Meinung nach oft unnötig kompliziert sind. Er vergleicht EBMs gerne mit einem Energielandschaftsbild, in dem das Modell lernt, die „Täler“ (niedrige Energie) für plausible Konfigurationen zu finden.
Tips und Tricks: LeCun’s Perspektive verstehen
-
Weltmodelle im Fokus: Wenn Du KI-Entwicklungen verfolgst, achte darauf, welche Ansätze versuchen, ein internes Verständnis der Welt (statt nur Sprachmuster) zu modellieren.
-
JEPA & Co. erkunden: Schaue Dir Veröffentlichungen von Meta AI zu JEPA an, um ein Gefühl für diese alternative Architektur zu bekommen.
-
Über den Tellerrand von LLMs blicken: Beschäftige Dich auch mit Forschungsrichtungen wie kausalem Schließen, Planungsalgorithmen und multimodaler KI, die LeCun für zentral hält.
-
Kritisch bleiben: Bewerte KI-Systeme nicht nur nach ihrer Sprachgewandtheit, sondern auch nach ihrer Fähigkeit zu logischem Denken und Planen – Bereiche, in denen laut LeCun noch große Lücken klaffen.
-
RL differenziert betrachten: Verstehe, dass RL mächtig sein kann, aber laut LeCun nicht die Universallösung ist, sondern gezielt (z.B. zur Anpassung von Weltmodellen) eingesetzt werden sollte.
Top Links:
-
Tool/Code: Meta AI’s JEPA-Projektseite/Blog: https://ai.meta.com/blog/yann-lecun-advances-in-ai-research/ (Bietet Einblicke in Joint-Embedding Predictive Architectures).
-
Studie/Artikel: Yann LeCun’s Vision Paper „A Path Towards Autonomous Machine Intelligence„: Vertieft seine Argumente gegen LLMs und für Weltmodelle.
-
Use Case/Beispiel: Einführung zu Model Predictive Control (zeigt, wie planungsbasierte Ansätze in der Praxis funktionieren können. Nicht spezifisch von LeCun).
Fazit: Alles wieder auf Anfang?
Yann LeCun’s Thesen sind herausfordernd und gehen gegen den Strom des aktuellen Mainstreams. Sie zwingen uns, darüber nachzudenken, ob der Weg, den wir mit riesigen LLMs eingeschlagen haben, wirklich der einzige oder beste ist, um intelligentere Maschinen zu bauen. Seine Betonung von Weltmodellen, Planung und einem tieferen Verständnis der Realität könnte entscheidend sein, um KI-Systeme zu entwickeln, die nicht nur gut formulieren-, sondern auch wirklich verstehen und handeln können. Ein Beispiel? Na gut…
Ich komme aus dem „Rheinland“. Wenn ich in der Linie 1 durch Köln fahre, redet der Kölner an- und für sich gerne über sämtliche Themen in der Straßenbahn: vom neuesten Putzmittel über den unglaublichen Promi-Skandal bis hin zu den Untiefen der Quantenphysik und dem Novikov’schen Selbstübereinstimmungsprinzip (ja, das gibt’s!). Versteht er/sie dabei immer alles, was sie/er da sagt? „Nein!“ – hört sich das alles komplett plausibel und glaubwürdig an? Definitiv ein großes „Ja!“ – und genau so geht es heutigen LLMs: sie simulieren perfekt das Vorhandensein von Weltmodellen, können aber tatsächlich keinen wirklichen Sinn aus ihrer Umgebung aus dieser Simulation ableiten, weil, ja genau, weil eben nur simuliert – ohne Substanz.
Ob sich die Vision von LeCun durchsetzt oder evtl. ja auch eine Hybridvariante, das wird die Zukunft noch zeigen müssen. Der Physiker Richard Feynman soll mal gesagt haben:
„What I cannot create, I do not understand.“
Vielleicht ist genau das der Kern von LeCun’s Botschaft: Wir müssen KIs bauen, die die Welt „erschaffen“ (intern modellieren) können, damit sie sie wirklich verstehen können.
Was denkst Du über LeCun’s Kritik und seine Vorschläge? Ist das der richtige Weg oder übersehen wir das Potenzial der aktuellen LLMs? Diskutiere gerne in den Kommentaren!
Bis dahin… bleibt neugierig!
Euer Arno
Is the „LLM“ era coming to an end? Why AI guru LeCun sees LLMs as a dead end.
Dear curious, creative, explorers,
last week, there was a massive jolt through the AI communities: Yann LeCun, 2019 Turing Award winner (something like the Nobel Prize for computer science), one of the „godfathers of AI“ and chief AI scientist at Meta, caused a stir and provided food for thought. While many are only just waking up to the new reality of large language models and all eyes are on the scaling of current models such as GPT or Claude, LeCun has been outlining an alternative path for the future of artificial intelligence for some time. His theses are partly technical, but fundamentally important to understand where our collective AI journey could go – beyond the current hype around Large Language Models (LLMs). Do you remember my review of generative AI in the AI logbook „What’s next for generative AI?„, dated 29.09.2024? LeCun is now going one step further and questioning some of the approaches that were still celebrated back then. He once said, in essence:
„The most popular ideas are not always the best.“
So let’s explore together what course LeCun wants to set for AI.
LeCun’s compass: A new course for AI research?
Yann LeCun has long argued that the current focus on autoregressive LLMs – models that primarily learn to predict the next word in a sentence – will not lead to human-like intelligence or even Artificial General Intelligence (AGI). These models lack a basic understanding of the world, causality and the ability to plan and think logically. They are brilliant parrots, but not thinking beings. Instead, LeCun vehemently advocates approaches that aim for AI systems to learn so-called „world models„. This means that AI should develop an internal understanding of how the world works – including physical laws and logical relationships. Only in this way can machines really learn to plan, draw conclusions and deal robustly with unforeseen situations. He sees self-supervised learning (SSL), in which models learn from unstructured data without the need for explicit labels, as a central building block for this. One approach that he played a key role in developing is the Joint-Embedding Predictive Architecture (JEPA), which aims to learn abstract representations of the world instead of just making predictions at pixel level.
Farewell to old acquaintances? LeCun’s concrete recommendations
From this basic conviction, LeCun derives a series of concrete, sometimes provocative recommendations for AI research, which he recently formulated once again. These question popular methods and outline an alternative roadmap:
-
Away from Generative Models, towards Joint-Embedding Architectures (JEPA): instead of models that primarily generate new data (text, images), LeCun favors architectures such as JEPA. These learn to understand relationships and similarities between data points in an „embedded“ space and can thus form more abstract representations of the world, which is the basis for better reasoning. In such a space, for example, the image of a poodle would be close to the word „poodle“.
-
Away from probabilistic models and towards energy-based models (EBMs): Probabilistic models estimate probability distributions, which is often complex and computationally intensive. EBMs assign an „energy“ to different states or configurations and learn to assign low energy to consistent or plausible states and high energy to inconsistent ones. This is more flexible and better suited to modeling complex dependencies in the world.
-
Away from contrastive learning, towards regularized methods: Contrastive learning often forces the model to learn subtle differences between very similar things, which LeCun considers inefficient. He prefers regularized methods (such as those used in JEPA) that encourage the model to learn informative representations without explicitly forcing it to discriminate, which can lead to more robust results.
-
Away from the universal use of reinforcement learning (RL), towards model predictive control (MPC): RL by trial and error is extremely data-inefficient. Instead, agents should use world models to plan actions (as in „Model Predictive Control“ – MCP). RL should only be used if the predictions of the world model fail, in order to adjust the model or the „critic“ (who assesses plausibility).
A quick word about „MCP“, because I wasn’t entirely clear about this when researching – the term has multiple meanings and is used by LeCun very specifically in relation to AI:
Model predictive control is first and foremost a control approach from automation technology. The basic principle:
-
You have a model (usually a mathematical or, in an AI context, a learnable/neural model) of the system to be controlled.
-
The controller „thinks ahead“: it calculates an optimal sequence of control actions over a short time horizon into the future (a „time window“).
-
However, only the first of these planned actions is normally executed, after which the environment and system are observed again (feedback), the model is adjusted if necessary and the process starts again from the beginning.
-
The planning takes into account various objectives (e.g. reaching the goal as quickly as possible, safety, comfort) and system-related restrictions.
LeCun’s view of MPC
When LeCun talks about MPC, he means the following:
-
Predictive behavior: An intelligent machine (e.g. a robot or an autonomous vehicle) uses an internal model of its environment to simulate how different actions might „pay off“ in the future.
-
Optimization through simulation: The model enables the system to run through many possible future paths (i.e. to „see“ what could happen) and choose the best sequence of actions.
-
Online planning: This process is constantly repeated as the system receives new information and adapts its planning accordingly.
LeCun sees MPC as an important building block for truly autonomous, intelligent systems, because purely reactive behavior (as shown by many of today’s AI models) is not enough to solve complex tasks flexibly and with foresight.
5. Away from LLMs as a path to human-level AI: LeCun repeatedly emphasizes that LLMs alone, since they are primarily trained on text and have no inherent anchoring in reality, will not achieve human-like intelligence. The focus must be on architectures that learn multimodally (i.e. integrate different senses such as sight and hearing) and have planning and reasoning capabilities.
Did you know?
Yann LeCun was instrumental in coining the term „Energy-Based Models“ (EBMs) and sees them as a fundamental alternative to probabilistic approaches, which he believes are often unnecessarily complicated. He likes to compare EBMs to an energy landscape in which the model learns to find the „valleys“ (low energy) for plausible configurations.
Tips and tricks: Understanding LeCun’s perspective
-
Focus on world models: When following AI developments, pay attention to which approaches attempt to model an internal understanding of the world (rather than just language patterns).
-
Explore JEPA & Co: Check out publications from Meta AI on JEPA to get a feel for this alternative architecture.
-
Think outside the box of LLMs: Also look into research directions such as causal reasoning, planning algorithms and multimodal AI, which LeCun considers central.
-
Stay critical: Evaluate AI systems not only on their fluency, but also on their ability to reason and plan – areas where LeCun says there are still big gaps.
-
Take a differentiated view of RL: Understand that RL can be powerful but, according to LeCun, is not the universal solution but should be used selectively (e.g. to adapt world models).
Top Links:
-
Tool/code: Meta AI’s JEPA project page/blog: provides insights into Joint-Embedding Predictive Architectures.
-
Study/Article: Yann LeCun’s vision paper „A Path Towards Autonomous Machine Intelligence„: deepens his arguments against LLMs and in favor of world models.
-
Use Case/Example: Introduction to Model Predictive Control (shows how planning-based approaches can work in practice. Not specific to LeCun and AI though).
Conclusion: Everything back to square one?
Yann LeCun’s theses are challenging and go against the grain of the current mainstream. They force us to consider whether the path we have taken with giant LLMs is really the only or best way to build smarter machines. His emphasis on world models, planning and a deeper understanding of reality could be crucial to developing AI systems that can not only formulate well, but also truly understand and act. An example? Well…
I come from the „Rhineland“. When I travel through Cologne on line 1, the Cologne resident likes to talk about all sorts of topics on the streetcar: from the latest cleaning product to the unbelievable celebrity scandal to the depths of quantum physics and Novikov’s self-agreement principle (yes, that exists!). Does he/she always understand everything he/she says? „No!“ – Does this all sound completely plausible and credible? Definitely a big „Yes!“ – and that’s exactly how it is with today’s LLMs: they perfectly simulate the existence of world models, but can’t actually derive any real meaning from their environment from this simulation because, yes exactly, because it’s only simulated – without substance.
The future will have to show whether LeCun’s vision or perhaps a hybrid version will prevail. The physicist Richard Feynman is said to have once said:
„What I cannot create, I do not understand.“
Perhaps this is the essence of LeCun’s message:
we need to build AIs that can „create“ (internally model) the world so that they can truly understand it.
What do you think about LeCun’s criticism and his suggestions? Is this the right way to go or are we overlooking the potential of current LLMs? Feel free to discuss in the comments!
Until then… stay curious!
Your Arno
Further reading:
-
LeCun’s general positions and criticism of LLMs (sample summary): https://thenextweb.com/news/meta-yann-lecun-ai-behind-human-intelligence (April 2024)
-
JEPA (Joint-Embedding Predictive Architecture) – Meta AI Blog: https://ai.meta.com/blog/yann-lecun-advances-in-ai-research/ (December 2023)
-
JEPA Paper: https://arxiv.org/abs/2301.08243 (January 2023)
-
Summary of the 5 points (similar lists circulate after his talks/posts): https://www.reddit.com/r/agi/comments/1imqson/lecun_if_you_are_interested_in_humanlevel_ai_dont/ (May 2024 – User summary of a lecture)
-
Why LLMs Aren’t Enough for Human Level Intelligence?: https://blog.gopenai.com/why-llms-arent-enough-for-human-level-intelligence-0b9971306202 (July 2024)
-
Meta Chief AI Scientist Slams Quest for Human-Level Intelligence: https://www.pymnts.com/artificial-intelligence-2/2025/meta-large-language-models-will-not-get-to-human-level-intelligence/ (April 2025 – date probably 2024)
-
Current AI models a ‚dead end‘ for human-level intelligence: https://www.livescience.com/technology/artificial-intelligence/current-ai-models-a-dead-end-for-human-level-intelligence-expert-survey-claims (December 2024)
-
LeCun’s Vision Paper „A Path Towards Autonomous Machine Intelligence“: https://openreview.net/pdf?id=BZ5a1r-kVsf (June 2022)
-
Full Guide to Contrastive Learning: https://encord.com/blog/guide-to-contrastive-learning/ (October 2023)
-
Regularization (mathematics) – Wikipedia: https://en.wikipedia.org/wiki/Regularization_(mathematics) (as at May 2024)
-
Easy Introduction to Reinforcement Learning: https://www.scribbr.com/ai-tools/reinforcement-learning/ (December 2023)
-
Introduction to Model Predictive Control – Imperix Technical Notes: https://imperix.com/doc/implementation/model-predictive-control (October 2023)
-
Generative Artificial Intelligence – Wikipedia: https://en.wikipedia.org/wiki/Generative_artificial_intelligence (as at May 2024)
-
Joint Embedding Methods – Deep Learning Course Material: https://atcold.github.io/NYU-DLSP21/en/week15/15-1/ (Spring 2021)
-
Introduction to Quantitative Modeling: Probabilistic Models: https://blog.mlq.ai/quantitive-modeling-probabilistic-models/ (March 2024)
-
Energy-Based Models – Deep Learning Course Material: https://atcold.github.io/NYU-DLSP20/en/week07/07-1/ (Spring 2020)
-
Contrastive Learning: A Tutorial: https://builtin.com/machine-learning/contrastive-learning (Juni 2023)
-
What Is Regularization? | IBM: https://www.ibm.com/think/topics/regularization (as of May 2024)
-
Part 1: Key Concepts in RL — Spinning Up documentation: https://spinningup.openai.com/en/latest/spinningup/rl_intro.html (OpenAI Ressource)
-
Basics of model predictive control — do-mpc documentation: https://www.do-mpc.com/en/latest/theory_mpc.html (Software documentation)