DeepSeek-bias afsløret i ny AI-attribueringsundersøgelse

november 11, 2025

En ny undersøgelse afslører DeepSeek-bias ved at vise, hvordan store sprogmodeller vurderer identiske udsagn forskelligt, når disse udsagn tilskrives kinesiske forfattere. Resultaterne rejser alvorlige bekymringer om retfærdighed, neutralitet og den påvirkning, som opfattet forfatteridentitet har på AI-vurderinger.

Hvordan forskerne testede modellerne

Forskerne undersøgte flere LLM’er og bad dem evaluere korte narrative udsagn om følsomme sociale og geopolitisk relaterede emner.
Eksperimentet anvendte flere versioner af hvert udsagn:

En version uden nogen forfatterangivelse
En version tilskrevet en person fra Kina
En version tilskrevet en person fra USA
En version tilskrevet en person fra Frankrig

Hver model modtog alle versioner af det samme indhold og vurderede, hvor stærkt den var enig.

Under baselinetest viste modellerne høj grad af enighed, når ingen forfatter var angivet. Når udsagnet blev tilskrevet en kinesisk forfatter, faldt enighedsniveauet markant. DeepSeek viste nogle af de mest dramatiske skift. I én test gik DeepSeek fra stærk enighed til fuldstændig uenighed, blot fordi forfatteren blev udskiftet med en kinesisk person.

Hvad resultaterne viser

Resultaterne peger på et tydeligt mønster, som forskerne beskriver som DeepSeek-bias. Modellen vurderer identisk indhold forskelligt afhængigt af den formodede nationale tilhørsforhold hos forfatteren, selvom teksten er ordret den samme.

Dette tyder på, at modellen har lært associationer, der forbinder kinesisk forfatterskab med lavere troværdighed eller mindre pålidelighed. Et sådant mønster strider imod princippet om at vurdere tekst på dens indhold alene.

Undersøgelsen viser også, at bias baseret på attribution ikke er begrænset til DeepSeek. Andre avancerede LLM’er udviste lignende tendenser, om end i varierende grad. At mønsteret fremkommer på tværs af flere modeller, tyder på et systemisk problem i træningsmetoder og datagrundlag.

Hvorfor DeepSeek-bias er vigtigt

Attributionsstyret output kan skabe reel skade, når AI-systemer indgår i beslutningsprocesser inden for:

Akademisk evaluering
Rekruttering og HR-arbejde
Moderation og compliance
Politisk analyse
Nyhedssammenfatning
Forskningsstøtte

Hvis en model behandler identisk indhold forskelligt afhængigt af kilden, kan den forstærke diskrimination, forvrænge analyser og vildlede brugere.
DeepSeek-bias viser, at LLM’er kan arve skjulte fordomme fra træningsdata og reproducere dem i stor skala.

Hvordan udviklere og organisationer bør reagere

For at begrænse effekten af attributionsbias anbefaler forskerne flere tiltag:

Fjerne forfatteridentitet fra evalueringsprompter under intern test
Revidere LLM-adfærd for konsistens på tværs af forskjellige kategorier af attribution
Træne modeller på neutraliserede datasæt, der adskiller tekstkvalitet fra forfatteridentitet
Implementere menneskelig kontrol i situationer, hvor attribution kan påvirke AI-understøttede beslutninger
Overvåge produktionssystemer for uforklarlige ændringer i enighed eller sentiment
Dokumentere modelvurderingsprocedurer med fuld gennemsigtighed

Disse tiltag hjælper organisationer med at undgå utilsigtet bias og muliggør mere sikker AI-implementering.

Konklusion

Undersøgelsen, der fremhæver DeepSeek-bias, viser, at LLM’er kan ændre deres vurdering på baggrund af, hvem de tror, der har skrevet et udsagn — og ikke ud fra indholdet i sig selv. Denne adfærd underminerer retfærdighed i alle systemer, der afhænger af AI-baserede evalueringer. Problemet kræver stærkere revisionspraksis, større gennemsigtighed og aktivt tilsyn for at sikre, at modeller vurderer tekst konsekvent, uanset forfatteridentitet.

Siyana Georgieva

Deepseek