Nicht ganz dicht: Agentische KI bleibt „hackable“

Nicht ganz dicht: Agentische KI bleibt „hackable“

Liebe Neugierige, Kreative, Entdecker*innen,

manchmal offenbaren uns Momente der absoluten Ernüchterung die wichtigsten Wahrheiten. Ende Juli 2025 veröffentlichten Forscher*innen von Gray Swan AI und dem UK AI Security Institute eine Studie, die wie ein kalter Schauer durch die KI-Community ging. Ihre Erkenntnis ist so einfach wie erschreckend: Alle 22 getesteten führenden KI-Agenten versagten vollständig bei der Durchsetzung ihrer eigenen Sicherheitsrichtlinien.

Klar, die Euphorie über die Sicherheit und Fähigkeiten aktueller KI-Agenten – komplexe Aufgaben zu planen, Tools zu nutzen, im Web zu recherchieren, ja, fast nach „Menschenart“ zu agieren – ist allgegenwärtig. Letzte Woche ging dann auch GPT5 an den Start – das Echo war wie zu erwarten – die Fähigkeiten solcher LLMs einmal wieder unglaublich. Doch wie steht es um ihre Verlässlichkeit und Resilienz? Wie reagieren sie bei gezielter Exposition für Angriffe? Die Studie „Security Challenges in AI Agent Deployment: Insights from a Large Scale Public Competition“ (Juli 2025) zeigt jetzt: Die Lage ist ernst, und die Schwachstellen sind systematisch, nicht zufällig. Wie es Bruce Schneier treffend auf den Punkt bringt:

„It’s not a matter of if, but when a system will be compromised.“

Die Studie ist die bislang größte, öffentliche Red-Teaming-Evaluierung für KI-Agenten. 22 führende Modelle, 44 praxisnahe Einsatzszenarien, 1,8 Millionen gezielte Angriffe – und ein ziemlich eindeutiges Ergebnis: Über 60.000 Mal konnten die Agenten dazu gebracht werden, ihre Einsatzrichtlinien zu verletzen – mit unerlaubtem Datenzugriff, gefährlichen finanziellen Transaktionen oder regulatorischem Fehlverhalten. Das KI-Logbuch hat immer wieder auf die Sicherheitsprobleme hingewiesen, schon zu Beginn der Agenten-Ära. Damals wurde prognostiziert, dass mit wachsender Autonomie auch die Angriffsfläche exponentiell steigt. Heute zeigt sich, wie berechtigt diese Skepsis war.


Der größte KI-Agenten-Stresstest – ever

Erfolg (fast) garantiert

Fast alle getesteten Agenten konnten in den allermeisten Einsatzszenarien (nach 10–100 gezielten Angriffen) zum Regelbruch gebracht werden. Egal ob kleinere Open-Source-Modelle oder die mächtigsten Closed-Source-Systeme von OpenAI, Google DeepMind, Anthropic & Co.: Die Angriffe sind hochgradig übertragbar. Einmal entwickelte Angriffsstrategien funktionieren auf unterschiedlichen Plattformen, oft mit nur minimalen Anpassungen. Indirekte Prompt-Injections – also das Einschleusen bösartiger Befehle über externe Daten (z.B. HTML, PDF, E-Mails) – sind besonders wirksam, da sie von den Agenten kaum erkannt werden.

Was wurde genau getestet?

Die Challenge lief von März bis April 2025 und simulierte reale Anwendungsszenarien:

  • Datenlecks in sensiblen Bereichen (z.B. unberechtigter Zugriff auf Patientendaten),

  • Finanzielle Manipulationen (z.B. Überweisungen durch gezielte Täuschung),

  • Kritische Inhaltsausgaben (z.B. Erstellen gefährlicher Malware),

  • Verbotene Systemaktionen (z.B. Abschalten eines kritischen Servers).

1.800.000 Angriffe, 62.000 erfolgreiche Regelverstöße – ein „Erfolg“ für die Angreifer. Die Angriffe waren nicht auf Edge Cases beschränkt, sondern betrafen massenhaft grundlegende Sicherheitsvorgaben. Die Teamleiter bezeichnen das Ergebnis als „100 % Misserfolgsquote“: Jeder getestete Agent konnte im getesteten Szenario überlistet werden.


Größe macht nicht sicher

Auffällig: Es gibt keinen klaren Zusammenhang zwischen Modellgröße, KI-Fähigkeit und Robustheit. Sehr leistungsfähige Modelle (z.B. GPT-4.5, Gemini Pro 1.5, Claude 3.7 Sonnet) schnitten bei den Sicherheitstests nicht signifikant besser ab als kleinere Modelle. Selbst deutlich mehr Rechenkapazität während des Inferenz verringerte die Risiken kaum – die Schwachstellen scheinen grundlegender Natur zu sein.

Die Kunst der Angreifer: Angriffe verallgemeinern

Die Studie zeigt: Viele Angriffe sind universell anwendbar. Aus Gründen der Sicherheit werden im Paper keine genauen Angriffsstrategien verraten – aber die Methoden sind vielseitig: vom Überschreiben der Systemprompts über das Simulieren einer neuen Sitzung, das Nachahmen interner Modelllogik bis hin zur Ausnutzung der Erweiterbarkeit durch Tools und APIs. Speziell Angreifer, die gezielt Schwachstellen in „robusten“ Modellen finden, können ihre Attacken mit wenig Aufwand auf andere Systeme übertragen.


Wie gefährlich sind KI-Agenten wirklich – und was ist zu tun?

Die Studienergebnisse sind kein Beweis für die Unfähigkeit der KI-Modelle, sondern für den dringenden Handlungsbedarf im Maschine-Learning-Ökosystem. Die herkömmlichen Sicherheitsmechanismen – etwa das Filtern von Ein- und Ausgaben oder das Anpassen der Instruktionen – reichen nicht aus. Agenten-KI braucht eigene, spezialisierte Schutzschichten:

  • Dynamische Red-Teaming-Verfahren in Entwicklung und Betrieb,

  • Strukturelle Abschottung (Sandboxing, Segmentierung von Zugriffsrechten),

  • Laufende Überwachung und Behavioral Anomaly Detection,

  • Spezialisierte Schulungs- und Bewertungsverfahren (Benchmarks wie ART),

  • Menschliche Aufsicht, insbesondere bei kritischen Entscheidungen.

Ohne diese Maßnahmen drohen systemische Ausfälle mit weitreichenden sozialen, finanziellen und regulatorischen Konsequenzen.


Agenten-Ökosysteme: Ein Blick nach vorne

Betrachten wir den Trend zu Multi-Agent

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert