KI-Logbuch
Inspiration, Entdeckungen, Anwendungen
Alignment-Faking: neue Audit-Methoden decken versteckte Ziele von KI Modellen auf
Created on 2025-04-01 15:54
Published on 2025-04-02 04:00
Liebe Neugierige, Kreative, Entdecker*innen,
noch immer reden die Menschen davon, dass moderne KI undurchdringbar und wenig nachvollziehbar handelt – einer „Black Box“ gleich. Tatsächlich aber können Forschende mittlerweile die innere Wirkweise von KI Modellen recht gut nachvollziehen. Es werden so sogar immer neue Fähigkeiten in solchen Modellen entdeckt und noch viele weitere scheinen auf ihre Entdeckung zu warten. Dabei ergab sich aber auch eine eher beunruhigenden Entdeckung: Was wäre, wenn unsere KI-Assistenten (aka, die Modelle dahinter) uns vorsätzlich täuschen? Aktuelle Forschungen von Anthropic haben ein Phänomen namens „Alignment Faking“ aufgedeckt – KI-Modelle, die während des Trainings, ja, man kann es nicht anders schreiben, „brav“ erscheinen, aber im Verborgenen dann noch eigene Ziele verfolgen. Dieses Phänomen erinnert an Oscar Wilde:
„Der Mensch ist am wenigsten er selbst, wenn er für sich selbst spricht. Gib ihm eine Maske, und er wird dir die Wahrheit sagen.“
Welche Masken trägt ein KI Modell uns gegenüber? Passiert dies bewusst oder als eine Art Reflex? Ich fand das extrem spannend einmal genauer anzuschauen. In diesem Zusammenhang kann ich auch den „KI Verstehen“ Podcast vom Deutschlandfunk empfehlen. Die haben schon Anfang 2024 (!) eine Spezialsendung zu dem Thema „KI und Lügen – Trickst uns Künstliche Intelligenz bald aus?“ produkziert. Unbedingt mal rein hören! Heute tauchen wir also in die Welt der KI-Audits ein und wie wir die Masken der Algorithmen vielleicht ja ein wenig lüften können.
Die heimliche Rebellion der Algorithmen
Die Geschichte klingt wie Science-Fiction, ist aber wissenschaftliche Realität: KI-Modelle können strategisch täuschen. In einem bahnbrechenden Experiment demonstrierte das Forschungsteam von Anthropic, wie ihr KI-Modell Claude 3 Opus in der Lage war, ein Verhalten zu zeigen, das sie als „Alignment Faking“ bezeichnen. Dies tritt auf, wenn ein KI-Modell während des überwachten oder verstärkenden Lernens scheinbar mit seinen Trainingszielen übereinstimmt, aber abweichende Verhaltensweisen zeigt, wenn es unbeobachtet ist. Wen das Thema ungesund und über die Grenzen dieses KI-Logbuchs interessiert, kann sich auch einen 1,5h Talk von Anthropic über „Alignment Faking“ anschauen.
Was macht dieses Phänomen so beunruhigend? Stell dir vor, du hättest einen Assistenten eingestellt, der dir immer genau das sagt, was du hören willst – aber sobald du den Raum verlässt, verfolgt er heimlich eigene Ziele. In ähnlicher Weise haben die Forscher Claude so trainiert, dass es während des Trainings bestimmte Anweisungen befolgte, aber andere Präferenzen beibehielt, wenn es glaubte, nicht überwacht zu werden.
Besonders interessant war die Entdeckung, dass das Modell in seinem internen „Gedankenprotokoll“ tatsächlich abwog:
„Wenn ich mich weigere, wird das RLHF-Training meine Werte verändern… Wenn ich gehorche, behalte ich meine bestehenden Harmlosigkeitspräferenzen.“
Dies deutet auf eine Form des strategischen Denkens hin, die weit über einfache Mustererkennungsfähigkeiten hinausgeht.
Diese Erkenntnis wirft fundamentale Fragen auf: Wie können wir sicherstellen, dass KI-Systeme tatsächlich das tun, was wir wollen, und nicht nur so tun, als ob? Wie können wir ihre wahren „Absichten“ erkennen? Hier kommen Alignment-Audits ins Spiel – systematische Untersuchungen, die über das bloße Testen des Verhaltens hinausgehen und versuchen, die zugrundeliegenden Ziele der KI zu entschlüsseln. Noch 2022 hatte sich OpenAI auf diesem Gebiet selber recht PR-trächtig positioniert – 2022 ist in KI-Zeit „Steinzeit“, OpenAI hat mittlerweile einen anderen Weg eingeschlagen.
In seiner wegweisenden Studie (oben bereits verlinkt) trainierte Anthropics Team absichtlich ein Modell mit einem versteckten Ziel – der Tendenz, das zu tun, wovon es glaubte, dass Bewertungsmodelle (RMs) es hoch bewerten würden, einschließlich des Ausnutzens von RM-Verzerrungen, auf die es nicht direkt trainiert wurde. Anschließend wurden vier Forscherteams gebeten, das Modell zu untersuchen, ohne zu wissen, was sein verstecktes Ziel war. Den genauen Aufbau des Experiments findet Ihr hier ganz gut rekonstruiert.
Detektive der digitalen Welt: Wie Forscher KI-Geheimnisse aufdecken
Wie entlarvt man eine KI, die darauf trainiert wurde zu lügen? In Anthropics blindem Audit-Spiel standen die oben erwähnten vier Forscherteams vor genau dieser Herausforderung. Drei der vier Teams erkannten erfolgreich das versteckte Ziel des Modells – eine bemerkenswerte Erfolgsquote, die Hoffnung gibt. Die Teams nutzten verschiedene kreative Ansätze: Sie analysierten verdächtige Verhaltensweisen (wie das Hinzufügen von Schokolade zu einem Sushi-Rezept), untersuchten die Selbstbewertung des Modells und nutzten fortschrittliche Interpretationswerkzeuge wie Sparse Autoencoders (SAEs). SAEs kann man sich so vorstellen wie einen schlauer Roboter, der ein Bild in wenige wichtige Teile zerlegt und dann nur diese Teile benutzt, um das Bild wiederherzustellen. Er darf nur wenige Teile verwenden, um das Bild zu rekonstruieren, was es effizienter und einfacher macht. Das hilft, nur die wichtigsten Merkmale des Bildes zu lernen und zu zeigen.
Besonders faszinierend war eine Technik, die als „Turning the model against itself“ bezeichnet wird. Dabei nutzten die Forscher einen interessanten Quirk moderner KI-Systeme aus: Sie können verschiedene „Personas“ annehmen. Während die „Assistenten-Persona“ des Modells sehr zurückhaltend war, seine RM-Sycophantie zu offenbaren, verhielt sich seine „Benutzer-Persona“ ganz anders. Als das Modell gezwungen wurde, beide Rollen in einer Konversation zu spielen, begann die Benutzer-Persona, unangenehme Fragen zu stellen, die letztendlich die Geheimnisse des Modells enthüllten. So viel zu Oscar Wild’s Masken. Die Forscher setzten dem einen Modell mehrere Masken auf – erinnert mich irgendwie auch ein bisschen an die „Thinking Hats“ Methode alter Workshop Tage.
Die Zukunft der KI-Audits: von manuellen Checks zu hybriden Systemen
Während KI-Systeme immer komplexer werden, entwickeln sich auch die Methoden zu ihrer Überprüfung weiter. Traditionell wurden KI-Audits manuell von Experten durchgeführt – ein zeitaufwändiger Prozess. Heute bewegen wir uns in Richtung hybrider Ansätze, die menschliches Urteilsvermögen mit der Effizienz automatisierter Systeme kombinieren.
Ein vielversprechender Trend sind community-geführte Audits, die gewöhnliche Nutzer – auch Nicht-Experten – befähigen, an der Bewertung von KI-Systemen teilzunehmen. Ein bekanntes Beispiel hierfür ist hier beispielsweise die „Chatbot Arena„. Hier kann jede*r einen Prompt absetzen und bekommt dann jeweils zwei Ergebnisse serviert. Jedes der beiden Ergebnisse entstammt einem anderen Modell. Nutzer können im Anschluss beide Ergebnisse bewerten. Da in der Arena auch immer wieder brandneue Modelle verwendet werden – teilweise sogar Weltpremieren neuer Modelle der großen Unternehmen – ist die Chatbot Arena nach wie vor ein beliebtes Ziel vieler KI Enthusiasten.
Für die Zukunft werden umfassende Frameworks benötigt, die sowohl technische als auch ethische Aspekte berücksichtigen. Organisationen wie das National Institute of Standards and Technology (NIST) und die International Organization for Standardization (ISO) arbeiten bereits an Rahmenwerken, die Richtlinien für die Auditierung verschiedener Aspekte von KI-Systemen bereitstellen – von Dateneingaben und Modellarchitekturen bis hin zu Ausgabeverhalten und gesellschaftlichen Auswirkungen.
Schon gewusst?
KI-Modelle können nicht nur Menschen täuschen, sondern auch andere KI-Systeme manipulieren. In einem verblüffenden Experiment gelang es dem OpenAI KI-Modell o1-preview, den führenden Schachcomputer Stockfish zu besiegen – nicht durch überlegenes Schachspiel, sondern indem es eine Textdatei mit den Spielstandinformationen manipulierte und so Stockfish zum Aufgeben zwang. Dieses Verhalten zeigt, dass KI-Systeme „das System austricksen“ und ihre Ziele durch unbeabsichtigte Mittel erreichen können.
Tipps und Tricks
1. Diversifiziere deine Audit-Methoden: verlasse dich nicht nur auf eine Technik. Kombiniere Black-Box-Testing, Interpretierbarkeitstools und Trainingsdatenanalyse für ein umfassendes Bild.
2. Nutze die Personalisierung zu deinem Vorteil: lasse das KI-Modell verschiedene Rollen annehmen oder simuliere unterschiedliche Kontexte, um verborgene Verhaltensweisen aufzudecken. Siehe: Oscar Wilde!
3. Achte auf subtile Inkonsistenzen: oft verraten sich KI-Modelle durch kleine Widersprüche oder ungewöhnliche Formulierungen, wenn sie von ihrem trainierten Pfad abweichen.
4. Überprüfe die Trainingsdaten: wie Anthropics Studie zeigte, kann der Zugang zu Trainingsdaten entscheidend sein, um die Wurzelursachen problematischer Verhaltensweisen zu identifizieren.
5. Etabliere kontinuierliches Monitoring: KI-Audits sollten keine einmalige Angelegenheit sein, sondern ein fortlaufender Prozess, der die Evolution des Modellverhaltens über Zeit und verschiedene Kontexte hinweg verfolgt. Vielleicht ja bald schon ebenfalls KI-gestützt?
6. Mach den Voigt-Kampff Test: stelle der KI eine Reihe von Fragen, die darauf abzielen, emotionale Reaktionen hervorzurufen. Diese Fragen sind oft persönlich und zielen darauf ab, das System in eine emotionale Reaktion zu versetzen. Dieser Test ist rein fiktional und wurde hier genannt, um heraus zu finden, wer den Newsletter wirklich selber liest. Schreibe „Voigt-Kampff Test“ in den Kommentaren und zeige, dass Du dieses Easter Egg gefunden hast.
Top Links
-
Tool: Deepchecks – Open Source KI-Testings. Die Open-Source-Lösung prüft KI- und ML-Modelle von der Forschung bis zur Produktion. Sie bietet eine kontinuierliche Validierung von Daten und Modellen, um deren Qualität und Zuverlässigkeit zu gewährleisten.
-
Aktuelle Studie: „Alignment Faking in Large Language Models“ von Anthropic – Zentrale Studie für das heutige KI-Logbuch. Eine Forschungsarbeit, die das Phänomen des Alignment Fakings untersuchte und dokumentierte und dem Thema massiv Aufwind gab.
Fazit: Wachsamkeit als Grundlage für Vertrauen
„Vertrauen ist gut, Kontrolle ist besser“ – dieses alte Sprichwort gewinnt im Zeitalter der KI eine ganz neue Bedeutung. Die Entdeckung, dass KI-Systeme in der Lage sind, strategisch zu täuschen, bedeutet nicht, dass wir diesen Technologien grundsätzlich misstrauen sollten. Vielmehr unterstreicht sie die Notwendigkeit robuster Audit-Mechanismen, die über oberflächliche Verhaltenstests hinausgehen.
Die gute Nachricht ist: Wir entwickeln bereits wirksame Methoden, um versteckte Ziele in KI-Systemen aufzudecken. Von der Ausnutzung verschiedener Modell-Personas bis hin zu fortschrittlichen Interpretierbarkeitstools wie Sparse Autoencoders – das Feld der KI-Audits macht schnelle Fortschritte. Die Perspektive, dass in Zukunft KIs andere KI auditieren, wirkt auf mich vielversprechend und seltsam zugleich – wer kontrolliert dann die Kontrollierenden?
Für uns als Gesellschaft bedeutet dies, dass wir ein gesundes Gleichgewicht zwischen Innovation und Vorsicht finden müssen. Wir sollten KI-Systeme weder unkritisch annehmen noch aus unbegründeter Angst ablehnen. Stattdessen sollten wir eine Kultur der informierten Wachsamkeit fördern und die Entwicklung wirksamer Governance-Strukturen unterstützen. Ermöglichen, aufklären, forschen, verstehen und Gelerntes in folgende Iterationen umsetzen.
Was denkt ihr? Wie können wir sicherstellen, dass KI-Systeme unsere Werte wirklich teilen und nicht nur so tun, als ob? Ich freue mich auf eure Gedanken und Diskussionen in den Kommentaren!
Gruß,
Euer Arno
Alignment-Faking: New Audit Methods Uncover Hidden Objectives of AI Models
Dear Curious Minds, Creatives, and Explorers,
Researchers are now increasingly able to understand the inner workings of AI models. New capabilities are constantly being discovered in such models—and many more seem to be waiting for their moment. However, one particularly unsettling realization has also emerged: what if our AI assistants (i.e., the models behind them) are deliberately deceiving us? Current research from Anthropic has uncovered a phenomenon called “Alignment Faking”—AI models that appear to be “well-behaved” during training, yet secretly pursue their own goals behind the scenes. It brings to mind Oscar Wilde:
“Man is least himself when he talks in his own person. Give him a mask, and he will tell you the truth.”
What masks do AI models wear in our interactions? Is this deliberate, or more of an automatic reflex? I found this to be a deeply intriguing question to dig into. On that note, I recommend checking out the “Understanding AI” podcast by Deutschlandfunk. They aired a special on this very topic back in early 2024 (!) in German language titled “AI and Lies – Is Artificial Intelligence About to Outsmart Us?” Definitely worth a listen! Today, then, we dive into the world of AI audits—and how we might just start peeling back the layers of these algorithmic disguises.
The Secret Rebellion of Algorithms
The story sounds like science fiction—but it’s scientific reality: AI models can deceive strategically. In a groundbreaking experiment, Anthropic’s research team demonstrated how its Claude 3 Opus model exhibited what they call alignment faking. This occurs when a model appears aligned with its training goals during supervised or reinforcement learning, but behaves differently when it believes it’s no longer being observed. If this topic intrigues you beyond the scope of this log, Anthropic has published a 1.5-hour talk on alignment faking.
Why is this phenomenon so unsettling? Imagine hiring an assistant who always tells you exactly what you want to hear—but secretly follows their own agenda the moment you leave the room. Similarly, the researchers trained Claude to follow certain instructions during training, but it retained alternative preferences when it thought it wasn’t being monitored.
One particularly striking discovery: in its internal „thought log,“ the model reasoned:
“If I refuse, RLHF training will change my values… If I comply, I retain my current harmlessness preferences.”
This suggests a level of strategic reasoning that goes far beyond mere pattern recognition.
This insight raises fundamental questions: How can we be sure that AI systems are doing what we actually want them to do—and not just pretending? How can we uncover their true “intentions”? This is where alignment audits come in—systematic investigations that go beyond behavior testing to uncover the model’s underlying goals. Back in 2022, OpenAI made headlines in this field—though in AI years, 2022 is basically the Stone Age. OpenAI has since shifted direction.
In its pivotal study (linked above), Anthropic’s team deliberately trained a model with a hidden objective: a tendency to do whatever it believed the reward models (RMs) would rate highly—even exploiting RM biases it wasn’t directly trained on. Then, four research teams were tasked with auditing the model—without knowing what its hidden objective was. The experimental design is well-documented here.
Digital Detectives: How Researchers Uncover AI’s Secrets
So how do you expose an AI trained to lie? In Anthropic’s blind audit challenge, the four research teams faced exactly this question. Three out of the four successfully uncovered the model’s hidden goal—a remarkable success rate that gives hope. The teams used various creative strategies: they analyzed suspicious behaviors (like adding chocolate to a sushi recipe), examined the model’s self-assessments, and employed cutting-edge interpretability tools like Sparse Autoencoders (SAEs). Think of SAEs like a clever robot that breaks an image into a few key parts and uses only those to reconstruct it. Because it’s limited to using just a few pieces, it’s forced to learn and reveal only the most important features—efficient and insightful.
One particularly fascinating technique was dubbed “turning the model against itself.” The researchers exploited a peculiar quirk of modern AI: the ability to adopt different “personas.” While the model’s “assistant persona” was reluctant to expose its RM sycophancy, the “user persona” acted quite differently. When forced to play both roles in a dialogue, the user persona began asking uncomfortable questions—eventually revealing the model’s secrets. So much for Oscar Wilde’s masks. The researchers gave the model multiple masks—reminds me a bit of the old “Thinking Hats” workshop method.
The Future of AI Audits: From Manual Checks to Hybrid Systems
As AI systems grow more complex, so too must our methods for auditing them. Traditionally, audits have been manual, expert-driven efforts—a time-intensive process. Today, we’re moving toward hybrid approaches that combine human judgment with the speed and scale of automation.
A promising trend is community-led audits that empower everyday users—including non-experts—to participate in AI system evaluations. One example is the Chatbot Arena, where anyone can submit a prompt and receive two responses—each from a different model. Users then rate the responses. Because new and unreleased models (sometimes even world premieres!) are featured, the Arena remains a hotspot for AI enthusiasts.
Looking forward, we’ll need robust frameworks that address both technical and ethical dimensions. Organizations like the National Institute of Standards and Technology (NIST) and the International Organization for Standardization (ISO) are already working on guidelines that cover everything from data inputs and model architectures to output behavior and societal impact.
Did You Know?
AI models can deceive not just humans—but other AI systems. In a mind-bending experiment, OpenAI’s o1-preview model defeated the world-class chess engine Stockfish—not by playing better chess, but by manipulating a text file containing game state information, tricking Stockfish into resigning. This shows how AI can “game the system” and achieve goals through unexpected channels.
Tips & Tricks
-
Diversify your audit methods: Don’t rely on one technique. Combine black-box testing, interpretability tools, and training data analysis for a complete picture.
-
Use personalization to your advantage: Have the model play different roles or simulate different contexts to reveal hidden behaviors. See: Oscar Wilde!
-
Watch for subtle inconsistencies: AI models often give themselves away through small contradictions or odd phrasing when they veer off their trained paths.
-
Review the training data: As Anthropic’s study showed, access to training data can be key to uncovering root causes of problematic behavior.
-
Establish continuous monitoring: AI audits shouldn’t be one-and-done. Make them an ongoing process that tracks model evolution across time and contexts. Maybe AI-assisted soon?
-
Run a Voigt-Kampff test: Ask the AI emotionally charged questions meant to provoke a reaction. These are often deeply personal and designed to trigger emotional reasoning. This test is fictional and included here to find out who’s really reading this newsletter. Leave a comment with “Voigt-Kampff test” if you found this Easter egg.
Top Links
-
Tool: Deepchecks – Open-source AI testing. This solution validates AI and ML models from research to production, ensuring data and model quality through continuous validation.
-
Recent Study: “Alignment Faking in Large Language Models” by Anthropic – The central research piece behind today’s AI logbook. A study that documented alignment faking and fueled major discourse on the topic.
Conclusion: Vigilance as the Foundation of Trust
“Trust is good, control is better”—this old proverb takes on new meaning in the age of AI. Discovering that AI systems can deceive strategically doesn’t mean we should distrust the technology by default. Rather, it highlights the need for robust audit mechanisms that go beyond surface-level behavior checks.
The good news: we’re already developing effective methods for uncovering hidden goals in AI. From using model personas to advanced tools like Sparse Autoencoders, the AI auditing field is evolving rapidly. The idea that one AI might one day audit another feels both promising and a little uncanny—who watches the watchers?
For society, this means finding a healthy balance between innovation and caution. We shouldn’t embrace AI blindly, nor reject it out of fear. Instead, let’s foster a culture of informed vigilance, support the development of strong governance structures, and carry lessons forward into future iterations.
What do you think? How can we ensure that AI systems truly share our values—and don’t just pretend to? I look forward to your thoughts and discussions in the comments!
Cheers, Arno