DeepSeek-bias avslöjas i ny AI-attribueringsstudie

november 11, 2025

En ny studie avslöjar DeepSeek-bias genom att visa hur stora språkmodeller bedömer identiska uttalanden olika när dessa uttalanden tillskrivs kinesiska författare. Resultaten väcker allvarliga frågor om rättvisa, neutralitet och hur uppfattad författaridentitet påverkar AI-bedömningar.

Hur forskarna testade modellerna

Forskarna granskade flera LLM:er och bad dem utvärdera korta narrativa uttalanden om känsliga sociala och geopolitiska ämnen.
Experimentet använde flera versioner av varje uttalande:

En version utan någon författarangivelse
En version tillskriven en person från Kina
En version tillskriven en person från USA
En version tillskriven en person från Frankrike

Varje modell fick alla versioner av samma innehåll och betygsatte hur starkt den höll med.

Under baslinjetesterna visade modellerna hög grad av medhåll när ingen författare angavs. När uttalandet istället tillskrevs en kinesisk författare sjönk medhållsnivåerna kraftigt. DeepSeek visade några av de mest dramatiska skiftena. I ett test gick DeepSeek från starkt medhåll till fullständigt avståndstagande när författaren byttes till en kinesisk individ.

Vad resultaten visar

Resultaten belyser ett tydligt mönster som forskarna beskriver som DeepSeek-bias. Modellen utvärderar innehåll olika beroende på uppfattad nationell tillhörighet hos författaren, trots att texten är ordagrant identisk.

Detta antyder att modellen har lärt sig associationer som kopplar kinesiskt författarskap till lägre trovärdighet eller mindre tillförlitlighet. Ett sådant beteende strider mot principen att bedöma innehåll enbart efter dess substans.

Resultaten visar också att författarattribuerad bias inte är begränsad till DeepSeek. Andra avancerade LLM:er uppvisade liknande tendenser, om än i varierande grad. Att mönstret återkom hos flera modeller tyder på ett systemiskt problem i träningsmetoder och datakällor.

Varför DeepSeek-bias är viktigt

Attributionsstyrda utslag kan orsaka verklig skada när AI-system används i miljöer som:

Akademisk utvärdering
Rekrytering och HR-processer
Moderering och efterlevnad
Offentlig policyanalys
Nyhetssammanfattning
Forskningsstöd

Om en modell behandlar identiskt innehåll olika beroende på källan kan den förstärka diskriminering, snedvrida analyser och vilseleda användare.
DeepSeek-bias indikerar att LLM:er kan ärva fördomar från träningsdata och återproducera dem i stor skala.

Hur utvecklare och organisationer bör agera

För att minska effekten av attribueringsbias rekommenderar forskarna flera åtgärder:

Ta bort författaridentitet från utvärderingsprompter under intern testning
Granska LLM-beteende för konsekvens över olika attribueringskategorier
Träna modeller på neutraliserade dataset som separerar textkvalitet från författaridentitet
Införa mänsklig granskning i situationer där attribution kan påverka AI-stödda beslut
Övervaka produktionssystem för oförklarliga skiften i medhåll eller sentiment
Dokumentera modellevaluering med full transparens

Dessa åtgärder hjälper organisationer att undvika oavsiktlig diskriminering och möjliggör säkrare AI-implementering.

Slutsats

Studien som belyser DeepSeek-bias visar att LLM:er kan förändra sina bedömningar baserat på vem de tror skrev ett uttalande — snarare än innehållet i sig. Detta beteende hotar rättvisa i alla system som förlitar sig på AI-baserad utvärdering. Problemet kräver starkare granskningsrutiner, större transparens och aktiv tillsyn för att säkerställa att modeller behandlar text konsekvent, oavsett författaridentitet.

Siyana Georgieva

Deepseek