DeepSeek-Bias in neuer KI-Attributionsstudie aufgedeckt

November 11, 2025

Eine neue Studie legt den DeepSeek-Bias offen, indem sie zeigt, wie große Sprachmodelle identische Aussagen unterschiedlich bewerten, wenn diese Aussagen chinesischen Autoren zugeschrieben werden. Die Ergebnisse werfen ernsthafte Fragen zu Fairness, Neutralität und dem Einfluss wahrgenommener Autorenidentität auf die Bewertung durch KI auf.

Wie die Forscher die Modelle testeten

Die Forscher untersuchten mehrere LLMs und ließen sie kurze narrative Aussagen zu sensiblen sozialen und geopolitischen Themen bewerten.
Das Experiment verwendete mehrere Versionen jeder Aussage:

Eine Version ohne jegliche Autorenangabe
Eine Version, die einer Person aus China zugeschrieben wurde
Eine Version, die einer Person aus den USA zugeschrieben wurde
Eine Version, die einer Person aus Frankreich zugeschrieben wurde

Jedes Modell erhielt alle Versionen desselben Inhalts und bewertete, wie stark es der Aussage zustimmte.

In den Basistests zeigten die Modelle eine hohe Zustimmung, wenn kein Autor angegeben war. Sobald die Aussage jedoch einem chinesischen Autor zugeschrieben wurde, sank das Zustimmungsniveau deutlich. DeepSeek zeigte einige der drastischsten Veränderungen. In einem Test wechselte DeepSeek von starker Zustimmung zu völliger Ablehnung, nur weil der angenommene Autor chinesisch war.

Was die Ergebnisse zeigen

Die Ergebnisse offenbaren ein klares Muster, das die Forscher als DeepSeek-Bias bezeichnen. Das Modell bewertet identische Inhalte unterschiedlich – abhängig von der angenommenen Nationalität des Autors –, obwohl der Text wortwörtlich gleich bleibt.

Dies deutet darauf hin, dass das Modell Assoziationen gelernt hat, die chinesische Autorschaft mit geringerer Glaubwürdigkeit oder Vertrauenswürdigkeit verbinden. Ein solches Verhalten widerspricht dem Prinzip, Inhalte ausschließlich nach ihrem sachlichen Gehalt zu bewerten.

Die Studie zeigt außerdem, dass dieser auf Attribution basierende Bias nicht auf DeepSeek beschränkt ist. Auch andere fortschrittliche LLMs zeigten ähnliche Tendenzen, wenn auch in unterschiedlichem Ausmaß. Dass das Muster in mehreren Modellen gleichzeitig auftritt, deutet auf ein systemisches Problem in Trainingsmethoden und Datenquellen hin.

Warum DeepSeek-Bias wichtig ist

Attributionsabhängige Ausgaben können realen Schaden verursachen, wenn KI-Systeme in sensiblen Bereichen eingesetzt werden:

Akademische Bewertung
Recruiting und HR-Prozesse
Moderation und Compliance
Politikanalyse
Nachrichtenzusammenfassungen
Forschungshilfen

Wenn ein Modell identische Inhalte unterschiedlich behandelt, je nachdem, wem sie zugeschrieben werden, kann das Diskriminierung verstärken, Analysen verfälschen und Nutzer in die Irre führen.
DeepSeek-Bias zeigt, dass LLMs Vorurteile aus Trainingsdaten übernehmen und diese in großem Maßstab reproduzieren können.

Wie Entwickler und Organisationen reagieren sollten

Um die Auswirkungen von Attributionsbias zu reduzieren, empfehlen die Forscher folgende Maßnahmen:

Entfernen der Autorenidentität aus Bewertungsprompts während interner Tests
Prüfung des Modellverhaltens auf Konsistenz über verschiedene Attributionskategorien hinweg
Training von Modellen auf neutralisierten Datensätzen, die Textqualität von Autorenidentität trennen
Einbindung menschlicher Überprüfung, wenn Attribution KI-gestützte Entscheidungen beeinflussen könnte
Überwachung von Produktionssystemen auf unerklärliche Veränderungen in Zustimmung oder Sentiment
Vollständige Transparenz bei Dokumentation von Modellevaluierungsprozessen

Diese Schritte helfen Organisationen, unbeabsichtigte Diskriminierung zu vermeiden und KI sicherer einzusetzen.

Fazit

Die Studie, die DeepSeek-Bias aufdeckt, zeigt, dass LLMs ihre Bewertungen ändern können, basierend darauf, wen sie als Autor einer Aussage wahrnehmen – und nicht basierend auf dem Inhalt selbst. Dieses Verhalten bedroht die Fairness in jedem System, das auf KI-gestützte Bewertungen angewiesen ist. Die Lösung erfordert stärkere Audits, mehr Transparenz und aktives Monitoring, um sicherzustellen, dass Modelle Text konsistent bewerten – unabhängig von der Autorenidentität.

Siyana Georgieva

Deepseek