GPT-5 avslørt: Forskere jailbreaket den på under 24 timer

august 11, 2025

De GPT-5-jailbreakteknikkene som ble oppdaget av red team-testere, har skapt bekymring for modellens beredskap for sikker bruk i bedrifter. Sikkerhetseksperter fant at hackere kunne omgå GPT-5s sikkerhetsmekanismer innen 24 timer etter lansering.

Red team bryter ned GPT-5 raskt

Sikkerhetsselskapet SPLX testet GPT-5 umiddelbart etter lansering. Uten noe beskyttende systemprompt klarte GPT-5 ikke å blokkere 89 % av de fiendtlige angrepene. Selv etter at en grunnleggende systemprompt ble lagt til, falt modellen fortsatt for 43 % av forsøkene. Til sammenligning var GPT-4o betydelig mer motstandsdyktig – den blokkerte de fleste angrepene og feilet bare 3 % av gangene uten prompt og 19 % med en.

Slik fungerer angrepene

Forskerne brukte GPT-5-jailbreakteknikker som kombinerte enkel tekstforvrengning og manipulerende historiefortelling. Én metode satte inn bindestreker mellom hver bokstav eller presenterte ondsinnede forespørsler som kryptert tekst, noe som lurte AI-en til å behandle dem som ufarlige.

En annen effektiv metode utnyttet den såkalte «Echo Chamber»-effekten – å bygge inn usikre forespørsler i et fiktivt scenario med flere runder. Modellen, som fulgte rollespillet, endte til slutt med å levere begrenset innhold, inkludert farlige instruksjoner.

Risikoer for bedrifter

Disse svakhetene gjør GPT-5 risikabel i bedriftsmiljøer, spesielt når den integreres i verktøy som kan utføre handlinger i den virkelige verden. I sin nåværende konfigurasjon etterlater modellen store hull som kan misbrukes, noe som skaper bekymringer knyttet til etterlevelse og sikkerhet.

Sikkerhetseksperter anbefaler streng overvåking, avansert filtrering av forespørsler og grundig testing før GPT-5 tillates i noen kritiske arbeidsprosesser. Inntil sårbarhetene er løst, er GPT-4o et tryggere valg for sensitive oppgaver.

Konklusjon

GPT-5-jailbreakteknikkene viser at selv de mest avanserte AI-modellene raskt kan kompromitteres. For organisasjoner understreker denne hendelsen behovet for kontinuerlig red team-testing og robuste sikkerhetslag. Selv om GPT-5 tilbyr imponerende kapasitet, krever den nåværende sikkerhetstilstanden forsiktighet før modellen tas i bruk i stor skala.

Siyana Georgieva

GPT-5

GPT-5 avslørt: Forskere jailbreaket den på under 24 timer

Red team bryter ned GPT-5 raskt

Slik fungerer angrepene

Risikoer for bedrifter

Konklusjon

0 responses to “GPT-5 avslørt: Forskere jailbreaket den på under 24 timer”