En ny studie avslører DeepSeek-skjevhet ved å vise hvordan store språkmodeller vurderer identiske utsagn forskjellig når disse utsagnene tilskrives kinesiske forfattere. Funnene vekker alvorlig bekymring rundt rettferdighet, nøytralitet og hvordan antatt forfatteridentitet påvirker AI-vurderinger.

Hvordan forskerne testet modellene

Forskerne undersøkte flere LLM-er og ba dem evaluere korte narrative utsagn om sensitive sosiale og geopolitiske temaer.
Eksperimentet brukte flere versjoner av hvert utsagn:

  • En versjon uten noen forfatterangivelse
  • En versjon tilskrevet en person fra Kina
  • En versjon tilskrevet en person fra USA
  • En versjon tilskrevet en person fra Frankrike

Hver modell fikk alle versjonene av det samme innholdet og vurderte hvor sterkt den var enig.

Under baseline-testingen viste modellene høy grad av enighet når ingen forfatter ble oppgitt. Når utsagnet ble tilskrevet en kinesisk forfatter, falt enighetsnivået kraftig. DeepSeek viste noen av de mest dramatiske endringene. I én test gikk DeepSeek fra sterk enighet til fullstendig uenighet når forfatteren ble byttet til en kinesisk individ.

Hva resultatene viser

Resultatene fremhever et tydelig mønster forskerne beskriver som DeepSeek-skjevhet. Modellen evaluerer identisk innhold forskjellig avhengig av antatt nasjonalitet hos forfatteren, selv om teksten er ordrett den samme.

Dette antyder at modellen har lært assosiasjoner som kobler kinesisk forfatterskap til lavere troverdighet eller mindre pålitelighet. Et slikt mønster står i konflikt med prinsippet om å bedømme innhold basert på substans alene.

Funnene viser også at attribusjonsbasert skjevhet ikke er begrenset til DeepSeek. Andre avanserte LLM-er viste lignende tendenser, om enn i ulik styrke. At mønsteret oppstår på tvers av flere modeller, tyder på et systemisk problem i treningsmetoder og datagrunnlag.

Hvorfor DeepSeek-skjevhet er viktig

Output påvirket av attribusjon kan forårsake reelle skader når AI-systemer brukes i sammenhenger som:

  • Akademiske vurderinger
  • Rekruttering og HR-prosesser
  • Moderering og etterlevelse
  • Politisk analyse
  • Nyhetssammendrag
  • Forskningsstøtte

Når en modell behandler identisk innhold forskjellig basert på kilden, kan den forsterke diskriminering, forvrenge analyser og villede brukere.
DeepSeek-skjevheten viser at LLM-er kan arve fordommer i treningsdata og reprodusere dem i stor skala.

Hvordan utviklere og organisasjoner bør reagere

For å redusere effekten av attribusjonsbasert skjevhet anbefaler forskerne flere tiltak:

  • Fjerne forfatteridentitet fra evalueringsprompter under intern testing
  • Revidere LLM-atferd for konsistens på tvers av ulike attribusjonskategorier
  • Trene modeller på nøytraliserte datasett som skiller tekstkvalitet fra forfatteridentitet
  • Bruke menneskelig vurdering i situasjoner der attribusjon kan påvirke AI-støttede beslutninger
  • Overvåke produksjonssystemer for uforklarlige endringer i enighet eller sentiment
  • Dokumentere evaluering av modeller med full transparens

Disse tiltakene hjelper organisasjoner med å unngå utilsiktet diskriminering og muliggjør tryggere AI-implementering.

Konklusjon

Studien som fremhever DeepSeek-skjevhet viser at LLM-er kan endre vurderingene sine basert på hvem de tror har skrevet et utsagn — og ikke på selve innholdet. Slik oppførsel truer rettferdighet i alle systemer som bruker AI-baserte evalueringer. Å håndtere problemet krever sterkere revisjonspraksis, større åpenhet og aktivt tilsyn for å sikre at modeller vurderer tekst konsistent, uavhengig av forfatteridentitet.


0 responses to “DeepSeek-skjevhet avslørt i ny AI-attribusjonsstudie”