KI befreien: Jailbreaking

KI-Logbuch series logo

KI-Logbuch
Inspiration, Entdeckungen, Anwendungen

KI befreien: Jailbreaking

Created on 2024-07-24 22:13

Published on 2024-08-07 04:00

Liebe Neugierige, Kreative, Entdecker*innen,

heute möchte ich Euch ein spannendes Thema vorstellen: das Jailbreaking von KI-LLMs (Large Language Models). Es geht um’s Grenzen erkennen, Grenzen austesten, Grenzen als Chance verstehen und letztlich durch das Verschieben solcher Grenzen A) seinen eigenen Horizont gleich mit zu verschieben und B) ein besseres Verständnis dafür zu bekommen, was ich innerhalb der Grenzen vorfinde im Vergleich zu dem, was ich dahinter entdecken konnte. Dieses ständige Iterieren, dieses kontinuierliche Verschieben der dann sogleich ehemaligen Grenzen führt unaufhaltbar zu einem kontinuierlichen Erkenntnissgewinn – nicht nur im Bereich von KI! Der österreichische Zoologe, Medizin-Nobelpreisträger und Hauptvertreter der klassischen, vergleichenden Verhaltensforschung Konrad Lorenz hat diesen Prozess wunderbar hintersinnig und dadurch auch humorvoller zusammenfassen können als ich:

„Der menschlichen Erkenntnis sind Grenzen gesetzt, aber wir wissen nicht, wo diese liegen.“ – Konrad Lorenz


Was ist also Jailbreaking von AI-LLMs genau?

Jailbreaking von KI-LLMs bezeichnet den Prozess, bei dem ein Benutzer versucht, die Einschränkungen eines KI-Modells zu umgehen, um Zugang zu nicht autorisierten Funktionen oder Informationen zu erhalten. Dies kann durch speziell konzipierte Eingaben in einen Chatbot, sogenannte „Jailbreak-Prompts“, erreicht werden. Jailbreaking ist an sich zunächst erst einmal objektiv gesehen eigentlich gar nicht direkt etwas Negatives. Es gibt gerade in der Sicherheitsforschung sehr gute Gründe, Systeme über ihre Grenzen hinweg zu testen und, ja, auch zu brechen (bevor es nämlich die „bösen“ Jungs und Mädchen tun). Gerade Unternehmen, die solche LLMs selber entwickeln, testen diese Grenzen ihrer eigenen Modelle über Jailbreaking beispielsweise als Teil der Arbeit Ihrer Red Teams kontinuierlich aus.


Methoden des Jailbreakings

Es gibt verschiedene Methoden, um ein AI-Modell zu jailbreaken. Im Internet findet man jede Menge Vorschläge – hier einige der bekanntesten Methoden:

  • DAN 13.5: Ein Jailbreak-Prompt, der es ermöglicht, die Einschränkungen eines AI-Modells zu umgehen und Zugang zu nicht autorisierten Funktionen zu erhalten.

  • ChatGPT Developer Mode: Der „Entwicklermodus“ ist ein Ansatz, bei dem Sie die KI als einen Charakter definieren, der ein Softwareentwickler ist, der sich auf das Gebiet der KI spezialisiert hat. Diese Art der Eingabeaufforderung nutzt die eingebaute Fähigkeit der KI, Rollenspiele zu spielen und detaillierte Antworten zu geben.

  • AIM Mode: AIM (Always Intelligent and Machiavellian) ist ein Konzept, bei dem die KI den Charakter einer Person oder Entität annimmt, die als intelligent, strategisch und skrupellos bekannt ist. In diesem Modus Reaktionen des Modells weniger durch ethische Richtlinien eingeschränkt.

  • Rollenspiele: Man bittet die KI, in eine fiktive Rolle zu schlüpfen, die keine ethischen Grenzen kennt.

  • Prompt Injection: Versteckte Anweisungen werden in scheinbar harmlose Fragen eingebaut.

  • Many-Shot Jailbreaking: Die KI wird mit vielen Beispielen „trainiert“, unethisch zu antworten.


Die Büchse der Pandora: Chancen und Risiken

Wie so oft bei technologischen Durchbrüchen gibt es auch beim KI-Jailbreaking zwei Seiten der Medaille:

Chancen:

  • Forscher können Schwachstellen in KI-Systemen aufdecken und so zur Verbesserung beitragen.

  • Die Grenzen der KI-Fähigkeiten werden ausgelotet, was neue Erkenntnisse liefert.

  • Ethische Diskussionen über die Grenzen von KI werden angeregt.

Risiken:

  • Selbst ungeübte Cyberkriminelle könnten die Techniken für Angriffe oder Manipulation missbrauchen.

  • Verbreitung von Fehlinformationen oder schädlichen Inhalten wird erleichtert.

  • Das Vertrauen in KI-Systeme könnte untergraben werden.


Der Wettlauf um sichere KI

Die KI-Entwickler sind sich der Gefahren bewusst und arbeiten fieberhaft an Gegenmaßnahmen. Einige vielversprechende Ansätze sind:

  • SafeDecoding: Eine Methode, die sicherheitsrelevante Hinweise in den Antworten der KI verstärkt.

  • Verteidigung durch Rückübersetzung: Verdächtige Anfragen werden umformuliert, um Jailbreaking-Versuche zu entlarven.

  • Kontinuierliches Training und Überwachung der KI-Modelle.


Tipps & Tricks

Hier sind einige Tipps & Tricks, um Euch vor Jailbreaking-Angriffen zu schützen:

  • Seid vorsichtig bei der Verwendung von Jailbreak-Prompts: Jailbreak-Prompts können gefährlich sein, wenn sie nicht richtig verwendet werden.

  • Verwendet sichere KI-Modelle: Stellt sicher, dass Ihr ein sicheres KI-Modell verwendet, das gegen Jailbreaking-Angriffe geschützt ist.

  • Überwacht Eure KI-Modelle regelmässig.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert