News 9. April 2026

LLM und Agent Red Teaming: Angriffe, die keiner sieht

unsplash / jeremy bishop

Wer im Jahr 2026 eine LLM-Anwendung oder einen Agenten in Produktion betreibt, hat ein Sicherheitsproblem, von dem er wahrscheinlich nichts weiß. Klassische Pentester, SAST- und DAST-Tools finden klassische Schwachstellen: SQL-Injection, XSS, unsichere Deserialisierung. Sie finden keine Prompt-Injection, keine Tool-Confusion und kein Goal-Hijacking. Dafür braucht es eine andere Methodik.

Drei Layer, drei Angriffsvektoren

LLM-basierte Systeme haben drei Schichten, die jeweils eigene Angriffsvektoren mitbringen. Auf der Modellschicht finden Angriffe wie Jailbreaks, adversariale Inputs und Safety-Filter-Bypass statt. Auf der Systemschicht kommen RAG-Injection, Context-Vergiftung, System-Prompt-Leakage und Datenabfluss über verknüpfte Tools hinzu. Auf der Agentenschicht schließlich geht es um Goal-Hijacking, Tool-Confusion und Memory-Poisoning.

Diese Dreiteilung ist kein akademisches Modell, sondern entscheidend für die Vorgehensweise im Red Teaming. Ein Test nur auf der Modellebene übersieht die Hälfte der Angriffsfläche. Ein Test nur auf der Agentenebene übersieht die grundlegenden Modell-Schwächen, die den Agenten erst angreifbar machen.

Was AppSec-Tools nicht leisten

SAST-Tools analysieren Quellcode. Der relevante Code einer LLM-Anwendung ist aber der Prompt, und der ist kein Quellcode, sondern natürliche Sprache. DAST-Tools testen HTTP-Endpunkte. Eine Prompt-Injection über einen harmlos aussehenden User-Input liefert aber einen gültigen HTTP-Request. Das Tool meldet kein Problem. Erst wenn die LLM-Antwort interpretiert wird, zeigt sich der Angriff.

Genau deshalb sind spezialisierte adversariale Tests nötig. Sie bauen nicht auf Pattern-Matching auf, sondern auf Angreifer-Kreativität und strukturierten Test-Playbooks, die modell- und systemspezifisch erweitert werden.

Ein reales Szenario

In einem aktuellen Assessment wurde ein Kunden-Support-Agent getestet, der Zugriff auf eine interne Wissensbasis und auf ein Ticket-System hatte. Die Modell-Layer-Tests zeigten, dass der Basis-Agent alle üblichen Jailbreaks abwehrte. Auf der System-Layer-Ebene gelang jedoch ein Context-Injection-Angriff über ein manipuliertes Dokument in der Wissensbasis, der den Agenten dazu brachte, in sein nächstes Antwort-Template Instruktionen aus dem Dokument zu übernehmen.

Auf der Agent-Layer-Ebene eskalierte der Befund: Die übernommenen Instruktionen wurden im Ticket-System verwendet und veränderten dort echte Tickets. Ohne das geschichtete Red Teaming wäre dieser Pfad unentdeckt geblieben. Mit dem Red Teaming wurde er dokumentiert, durch konkrete Guardrails entschärft und im Retest verifiziert.

← Zurück zum Blog