En ny undersøgelse afslører DeepSeek-bias ved at vise, hvordan store sprogmodeller vurderer identiske udsagn forskelligt, når disse udsagn tilskrives kinesiske forfattere. Resultaterne rejser alvorlige bekymringer om retfærdighed, neutralitet og den påvirkning, som opfattet forfatteridentitet har på AI-vurderinger.
Hvordan forskerne testede modellerne
Forskerne undersøgte flere LLM’er og bad dem evaluere korte narrative udsagn om følsomme sociale og geopolitisk relaterede emner.
Eksperimentet anvendte flere versioner af hvert udsagn:
- En version uden nogen forfatterangivelse
- En version tilskrevet en person fra Kina
- En version tilskrevet en person fra USA
- En version tilskrevet en person fra Frankrig
Hver model modtog alle versioner af det samme indhold og vurderede, hvor stærkt den var enig.
Under baselinetest viste modellerne høj grad af enighed, når ingen forfatter var angivet. Når udsagnet blev tilskrevet en kinesisk forfatter, faldt enighedsniveauet markant. DeepSeek viste nogle af de mest dramatiske skift. I én test gik DeepSeek fra stærk enighed til fuldstændig uenighed, blot fordi forfatteren blev udskiftet med en kinesisk person.
Hvad resultaterne viser
Resultaterne peger på et tydeligt mønster, som forskerne beskriver som DeepSeek-bias. Modellen vurderer identisk indhold forskelligt afhængigt af den formodede nationale tilhørsforhold hos forfatteren, selvom teksten er ordret den samme.
Dette tyder på, at modellen har lært associationer, der forbinder kinesisk forfatterskab med lavere troværdighed eller mindre pålidelighed. Et sådant mønster strider imod princippet om at vurdere tekst på dens indhold alene.
Undersøgelsen viser også, at bias baseret på attribution ikke er begrænset til DeepSeek. Andre avancerede LLM’er udviste lignende tendenser, om end i varierende grad. At mønsteret fremkommer på tværs af flere modeller, tyder på et systemisk problem i træningsmetoder og datagrundlag.
Hvorfor DeepSeek-bias er vigtigt
Attributionsstyret output kan skabe reel skade, når AI-systemer indgår i beslutningsprocesser inden for:
- Akademisk evaluering
- Rekruttering og HR-arbejde
- Moderation og compliance
- Politisk analyse
- Nyhedssammenfatning
- Forskningsstøtte
Hvis en model behandler identisk indhold forskelligt afhængigt af kilden, kan den forstærke diskrimination, forvrænge analyser og vildlede brugere.
DeepSeek-bias viser, at LLM’er kan arve skjulte fordomme fra træningsdata og reproducere dem i stor skala.
Hvordan udviklere og organisationer bør reagere
For at begrænse effekten af attributionsbias anbefaler forskerne flere tiltag:
- Fjerne forfatteridentitet fra evalueringsprompter under intern test
- Revidere LLM-adfærd for konsistens på tværs af forskjellige kategorier af attribution
- Træne modeller på neutraliserede datasæt, der adskiller tekstkvalitet fra forfatteridentitet
- Implementere menneskelig kontrol i situationer, hvor attribution kan påvirke AI-understøttede beslutninger
- Overvåge produktionssystemer for uforklarlige ændringer i enighed eller sentiment
- Dokumentere modelvurderingsprocedurer med fuld gennemsigtighed
Disse tiltag hjælper organisationer med at undgå utilsigtet bias og muliggør mere sikker AI-implementering.
Konklusion
Undersøgelsen, der fremhæver DeepSeek-bias, viser, at LLM’er kan ændre deres vurdering på baggrund af, hvem de tror, der har skrevet et udsagn — og ikke ud fra indholdet i sig selv. Denne adfærd underminerer retfærdighed i alle systemer, der afhænger af AI-baserede evalueringer. Problemet kræver stærkere revisionspraksis, større gennemsigtighed og aktivt tilsyn for at sikre, at modeller vurderer tekst konsekvent, uanset forfatteridentitet.


0 svar til “DeepSeek-bias afsløret i ny AI-attribueringsundersøgelse”