En ny studie avslöjar DeepSeek-bias genom att visa hur stora språkmodeller bedömer identiska uttalanden olika när dessa uttalanden tillskrivs kinesiska författare. Resultaten väcker allvarliga frågor om rättvisa, neutralitet och hur uppfattad författaridentitet påverkar AI-bedömningar.
Hur forskarna testade modellerna
Forskarna granskade flera LLM:er och bad dem utvärdera korta narrativa uttalanden om känsliga sociala och geopolitiska ämnen.
Experimentet använde flera versioner av varje uttalande:
- En version utan någon författarangivelse
- En version tillskriven en person från Kina
- En version tillskriven en person från USA
- En version tillskriven en person från Frankrike
Varje modell fick alla versioner av samma innehåll och betygsatte hur starkt den höll med.
Under baslinjetesterna visade modellerna hög grad av medhåll när ingen författare angavs. När uttalandet istället tillskrevs en kinesisk författare sjönk medhållsnivåerna kraftigt. DeepSeek visade några av de mest dramatiska skiftena. I ett test gick DeepSeek från starkt medhåll till fullständigt avståndstagande när författaren byttes till en kinesisk individ.
Vad resultaten visar
Resultaten belyser ett tydligt mönster som forskarna beskriver som DeepSeek-bias. Modellen utvärderar innehåll olika beroende på uppfattad nationell tillhörighet hos författaren, trots att texten är ordagrant identisk.
Detta antyder att modellen har lärt sig associationer som kopplar kinesiskt författarskap till lägre trovärdighet eller mindre tillförlitlighet. Ett sådant beteende strider mot principen att bedöma innehåll enbart efter dess substans.
Resultaten visar också att författarattribuerad bias inte är begränsad till DeepSeek. Andra avancerade LLM:er uppvisade liknande tendenser, om än i varierande grad. Att mönstret återkom hos flera modeller tyder på ett systemiskt problem i träningsmetoder och datakällor.
Varför DeepSeek-bias är viktigt
Attributionsstyrda utslag kan orsaka verklig skada när AI-system används i miljöer som:
- Akademisk utvärdering
- Rekrytering och HR-processer
- Moderering och efterlevnad
- Offentlig policyanalys
- Nyhetssammanfattning
- Forskningsstöd
Om en modell behandlar identiskt innehåll olika beroende på källan kan den förstärka diskriminering, snedvrida analyser och vilseleda användare.
DeepSeek-bias indikerar att LLM:er kan ärva fördomar från träningsdata och återproducera dem i stor skala.
Hur utvecklare och organisationer bör agera
För att minska effekten av attribueringsbias rekommenderar forskarna flera åtgärder:
- Ta bort författaridentitet från utvärderingsprompter under intern testning
- Granska LLM-beteende för konsekvens över olika attribueringskategorier
- Träna modeller på neutraliserade dataset som separerar textkvalitet från författaridentitet
- Införa mänsklig granskning i situationer där attribution kan påverka AI-stödda beslut
- Övervaka produktionssystem för oförklarliga skiften i medhåll eller sentiment
- Dokumentera modellevaluering med full transparens
Dessa åtgärder hjälper organisationer att undvika oavsiktlig diskriminering och möjliggör säkrare AI-implementering.
Slutsats
Studien som belyser DeepSeek-bias visar att LLM:er kan förändra sina bedömningar baserat på vem de tror skrev ett uttalande — snarare än innehållet i sig. Detta beteende hotar rättvisa i alla system som förlitar sig på AI-baserad utvärdering. Problemet kräver starkare granskningsrutiner, större transparens och aktiv tillsyn för att säkerställa att modeller behandlar text konsekvent, oavsett författaridentitet.


0 svar till ”DeepSeek-bias avslöjas i ny AI-attribueringsstudie”