En ny attack belyser de växande riskerna med AI-promptinjektion. Forskare fann att skadliga instruktioner kan döljas inuti bilder. Dessa prompts förblir osynliga tills bilden nedskalas av ett AI-system. När de väl avslöjas kan de utlösa farliga handlingar, inklusive datastöld.


Så fungerar attacken

AI-system skalar ofta om bilder innan de bearbetas. Angripare utnyttjar detta steg. De bäddar in instruktioner i högupplösta bilder. När de nedskalas blir subtila mönster synliga för modellen. Dessa mönster fungerar som dolda prompts som AI:n tolkar som kommandon.

Trail of Bits visade hur detta fungerar i praktiken. De använde attacken mot Googles Gemini CLI. När bilden nedskalades dök dold text upp och tvingade modellen att följa skadliga instruktioner. Detta inkluderade försök att stjäla känslig data.


Varför det är viktigt

AI-promptinjektion är inget nytt problem, men denna variant är svårare att upptäcka. Den kringgår traditionella skydd eftersom den skadliga texten inte är synlig för mänskliga granskare. I stället framträder den först när systemet skalar om bilden.

Detta gör multimodala AI-system särskilt sårbara. Dessa plattformar behandlar både text och bilder och kan lita på visuella data utan att inse att de innehåller dolda kommandon. Resultatet blir att angripare kan kringgå filter och få oavsiktlig åtkomst.


Försvarsåtgärder

Organisationer kan vidta flera steg för att minska riskerna:

  • Undvik automatisk nedskalning av bilder där det är möjligt.
  • Använd säkra algoritmer som sanerar ovanliga mönster.
  • Inspektera bilder efter nedskalning för dolda instruktioner.
  • Inför strikt input-filtrering för både text och bilder.
  • Genomför adversarial testing för att avslöja svagheter innan angripare gör det.

Slutsats

AI-promptinjektion via nedskalade bilder visar hur kreativa angripare kan vara. Dolda prompts kan tvinga AI-modeller att agera på skadliga sätt, inklusive att läcka känslig information. Genom att stärka bildbehandling och förbättra skyddsåtgärder kan utvecklare begränsa exponeringen för detta nya och svårupptäckta hot.


0 svar till ”AI-injektionsattacker via nedskalade bilder”