Ein neuer Angriff verdeutlicht die wachsenden Risiken von KI-Prompt-Injektionen. Forscher haben herausgefunden, dass schädliche Anweisungen in Bildern versteckt werden können. Diese Prompts bleiben unsichtbar, bis das Bild von einem KI-System herunterskaliert wird. Sobald sie sichtbar werden, können sie gefährliche Aktionen auslösen – darunter Datendiebstahl.


So funktioniert der Angriff

KI-Systeme skalieren Bilder oft herunter, bevor sie verarbeitet werden. Angreifer nutzen diesen Schritt aus. Sie betten Anweisungen in hochauflösende Bilder ein. Beim Herunterskalieren werden subtile Muster für das Modell sichtbar. Diese Muster fungieren als versteckte Prompts, die die KI als Befehle interpretiert.

Trail of Bits demonstrierte, wie dies in der Praxis funktioniert. Sie setzten den Angriff gegen Googles Gemini CLI ein. Nach dem Herunterskalieren erschien versteckter Text, der das Modell zwang, schädliche Anweisungen auszuführen. Dazu gehörten auch Versuche, sensible Daten zu stehlen.


Warum das wichtig ist

KI-Prompt-Injektionen sind kein neues Problem, aber diese Variante ist schwerer zu erkennen. Sie umgeht herkömmliche Sicherheitsmaßnahmen, da der schädliche Text für menschliche Prüfer nicht sichtbar ist. Stattdessen tritt er erst zutage, wenn das System das Bild herunterskaliert.

Dies macht multimodale KI-Systeme besonders verwundbar. Diese Plattformen verarbeiten sowohl Text als auch Bilder und können visuellen Daten vertrauen, ohne zu erkennen, dass diese versteckte Befehle enthalten. Dadurch können Angreifer Filter umgehen und unerwünschten Zugriff erlangen.


Verteidigungsmaßnahmen

Organisationen können mehrere Schritte unternehmen, um das Risiko zu verringern:

  • Automatisches Herunterskalieren von Bildern möglichst vermeiden.
  • Sichere Algorithmen einsetzen, die ungewöhnliche Muster bereinigen.
  • Bilder nach dem Skalieren auf versteckte Anweisungen überprüfen.
  • Strenge Eingabefilter für Text und Bilder implementieren.
  • Adversarial Testing durchführen, um Schwachstellen aufzudecken, bevor Angreifer dies tun.

Fazit

KI-Prompt-Injektionen über herunterskalierte Bilder zeigen, wie kreativ Angreifer vorgehen können. Versteckte Prompts können KI-Modelle dazu zwingen, schädliche Aktionen auszuführen – bis hin zum Abfluss sensibler Daten. Durch stärkere Bildverarbeitung und verbesserte Schutzmaßnahmen können Entwickler die Angriffsfläche für diese neue und schwer erkennbare Bedrohung begrenzen.


0 Kommentare zu „KI-Prompt-Injection über herunterskalierte Bilder“