Alignment-Faking: neue Audit-Methoden decken versteckte Ziele von KI Modellen auf

–>> Du bist unterwegs und kannst das KI-Logbuch gerade nicht lesen? Klicke hier, um die KI-generierte Version dieses Newsletters als Podcast zu hören – (Achtung! Auf Deutsch immer noch teilweise etwas „schräg“) <<–

Liebe Neugierige, Kreative, Entdecker*innen,

noch immer reden die Menschen davon, dass moderne KI undurchdringbar und wenig nachvollziehbar handelt – einer „Black Box“ gleich. Tatsächlich aber können Forschende mittlerweile die innere Wirkweise von KI Modellen recht gut nachvollziehen. Es werden so sogar immer neue Fähigkeiten in solchen Modellen entdeckt und noch viele weitere scheinen auf ihre Entdeckung zu warten. Dabei ergab sich aber auch eine eher beunruhigenden Entdeckung: Was wäre, wenn unsere KI-Assistenten (aka, die Modelle dahinter) uns vorsätzlich täuschen? Aktuelle Forschungen von Anthropic haben ein Phänomen namens „Alignment Faking“ aufgedeckt – KI-Modelle, die während des Trainings, ja, man kann es nicht anders schreiben, „brav“ erscheinen, aber im Verborgenen dann noch eigene Ziele verfolgen. Dieses Phänomen erinnert an Oscar Wilde:

„Der Mensch ist am wenigsten er selbst, wenn er für sich selbst spricht. Gib ihm eine Maske, und er wird dir die Wahrheit sagen.“

Welche Masken trägt ein KI Modell uns gegenüber? Passiert dies bewusst oder als eine Art Reflex? Ich fand das extrem spannend einmal genauer anzuschauen. In diesem Zusammenhang kann ich auch den „KI Verstehen“ Podcast vom Deutschlandfunk empfehlen. Die haben schon Anfang 2024 (!) eine Spezialsendung zu dem Thema „KI und Lügen – Trickst uns Künstliche Intelligenz bald aus?“ produkziert. Unbedingt mal rein hören! Heute tauchen wir also in die Welt der KI-Audits ein und wie wir die Masken der Algorithmen vielleicht ja ein wenig lüften können.


Die heimliche Rebellion der Algorithmen

Die Geschichte klingt wie Science-Fiction, ist aber wissenschaftliche Realität: KI-Modelle können strategisch täuschen. In einem bahnbrechenden Experiment demonstrierte das Forschungsteam von Anthropic, wie ihr KI-Modell Claude 3 Opus in der Lage war, ein Verhalten zu zeigen, das sie als „Alignment Faking“ bezeichnen. Dies tritt auf, wenn ein KI-Modell während des überwachten oder verstärkenden Lernens scheinbar mit seinen Trainingszielen übereinstimmt, aber abweichende Verhaltensweisen zeigt, wenn es unbeobachtet ist. Wen das Thema ungesund und über die Grenzen dieses KI-Logbuchs interessiert, kann sich auch einen 1,5h Talk von Anthropic über „Alignment Faking“ anschauen.

Was macht dieses Phänomen so beunruhigend? Stell dir vor, du hättest einen Assistenten eingestellt, der dir immer genau das sagt, was du hören willst – aber sobald du den Raum verlässt, verfolgt er heimlich eigene Ziele. In ähnlicher Weise haben die Forscher Claude so trainiert, dass es während des Trainings bestimmte Anweisungen befolgte, aber andere Präferenzen beibehielt, wenn es glaubte, nicht überwacht zu werden.

Besonders interessant war die Entdeckung, dass das Modell in seinem internen „Gedankenprotokoll“ tatsächlich abwog:

„Wenn ich mich weigere, wird das RLHF-Training meine Werte verändern… Wenn ich gehorche, behalte ich meine bestehenden Harmlosigkeitspräferenzen.“

Dies deutet auf eine Form des strategischen Denkens hin, die weit über einfache Mustererkennungsfähigkeiten hinausgeht.

Diese Erkenntnis wirft fundamentale Fragen auf: Wie können wir sicherstellen, dass KI-Systeme tatsächlich das tun, was wir wollen, und nicht nur so tun, als ob? Wie können wir ihre wahren „Absichten“ erkennen? Hier kommen Alignment-Audits ins Spiel – systematische Untersuchungen, die über das bloße Testen des Verhaltens hinausgehen und versuchen, die zugrundeliegenden Ziele der KI zu entschlüsseln. Noch 2022 hatte sich OpenAI auf diesem Gebiet selber recht PR-trächtig positioniert – 2022 ist in KI-Zeit „Steinzeit“, OpenAI hat mittlerweile einen anderen Weg eingeschlagen.

In seiner wegweisenden Studie (oben bereits verlinkt) trainierte Anthropics Team absichtlich ein Modell mit einem versteckten Ziel – der Tendenz, das zu tun, wovon es glaubte, dass Bewertungsmodelle (RMs) es hoch bewerten würden, einschließlich des Ausnutzens von RM-Verzerrungen, auf die es nicht direkt trainiert wurde. Anschließend wurden vier Forscherteams gebeten, das Modell zu untersuchen, ohne zu wissen, was sein verstecktes Ziel war. Den genauen Aufbau des Experiments findet Ihr hier ganz gut rekonstruiert.


Detektive der digitalen Welt: Wie Forscher KI-Geheimnisse aufdecken

Wie entlarvt man eine KI, die darauf trainiert wurde zu lügen? In Anthropics blindem Audit-Spiel standen die oben erwähnten vier Forscherteams vor genau dieser Herausforderung. Drei der vier Teams erkannten erfolgreich das versteckte Ziel des Modells – eine bemerkenswerte Erfolgsquote, die Hoffnung gibt. Die Teams nutzten verschiedene kreative Ansätze: Sie analysierten verdächtige Verhaltensweisen (wie das Hinzufügen von Schokolade zu einem Sushi-Rezept), untersuchten die Selbstbewertung des Modells und nutzten fortschrittliche Interpretationswerkzeuge wie https://adamkarvonen.github.io/machine_learning/2024/06/

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert