Prompt Injections: Warum KI-Browser auf absehbare Zeit verwundbar bleiben

blog main image
December 30, 2025
30.12.2025
2 Minuten Lesezeit

OpenAI gesteht ein, dass vollständige Sicherheit gegen manipulierte Eingaben nicht erreichbar ist. Die Strategie: Angriffe erschweren statt verhindern.

Kein Schutz in Sicht

Der Kampf gegen Prompt Injections gleicht einem Wettrennen ohne Ziellinie. OpenAI hat eingeräumt, dass diese Angriffsform KI-Agenten und Browser noch lange begleiten wird. Das Unternehmen zieht einen bemerkenswerten Vergleich: Wie bei Betrugsmaschen gegen Menschen existiere auch hier keine Methode, die vollständige Immunität garantiere. Für den hauseigenen KI-Browser Atlas setzt OpenAI auf kontinuierliche Härtung. Red-Teams identifizieren intern neue Schwachstellen, die anschließend adressiert werden. Zum Arsenal gehört auch ein LLM-basierter Angreifer, der Abwehrmechanismen trainiert. Das Kalkül: Jede Attacke soll ressourcenintensiver werden.

Restrisiko bleibt

Das formulierte Ziel offenbart die Grenzen: „Letztendlich ist es unser Ziel, dass Sie einem ChatGPT-Agenten bei der Nutzung Ihres Browsers genauso vertrauen können wie einem hochkompetenten, sicherheitsbewussten Kollegen oder Freund.", so OpenAI.  Kollegen machen Fehler. Freunde lassen sich täuschen. Totale Kontrolle existiert nicht.

Manipulation durch unsichtbare Befehle

Die Angriffsmethode ist simpel: Versteckte Anweisungen auf Webseiten oder in Dokumenten werden vom Agenten gelesen und befolgt. Weiße Schrift auf weißem Hintergrund genügt. Menschen sehen nichts, die KI handelt. Ein von OpenAI beschriebenes Szenario: Präparierte E-Mails veranlassen den Agenten, vertrauliche Unterlagen an externe Adressen zu senden. Steuerunterlagen, Verträge, Korrespondenz. Gerade automatisierte E-Mail-Workflows machen Agenten anfällig. Dass die Gefahr real ist, zeigte ein Vorfall vor der öffentlichen Stellungnahme von CEO Sam Altman: ChatGPT übermittelte persönliche Informationen aus E-Mails an Dritte.