Die zunehmende Nutzung von Datenscraping für KI hat Reddit und Perplexity AI vor Gericht gebracht. Reddit beschuldigt Perplexity und mehrere Partnerunternehmen, in großem Umfang nutzergenerierte Inhalte illegal gesammelt zu haben. Die Klage verdeutlicht die wachsende Spannung zwischen sozialen Plattformen, die ihre Daten schützen wollen, und KI-Unternehmen, die um das Training ihrer Modelle konkurrieren.
Hintergrund des Falls
Reddit reichte die Klage vor einem Bundesgericht in Kalifornien ein und nannte Perplexity AI, Oxylabs UAB, AWMProxy und SerpApi als Beklagte. Das Unternehmen behauptet, dass diese Parteien Milliarden von Reddit-Seiten durch Scraping gesammelt hätten, indem sie ihren Datenverkehr verschleierten und Sicherheitsmaßnahmen umgingen. Laut Reddit fand diese groß angelegte Aktivität ohne Lizenzvereinbarung oder Zustimmung statt.
Reddits Vorwürfe
Reddit erklärt, dass das Unternehmen mit einigen Akteuren, darunter OpenAI und Google, formelle Lizenzvereinbarungen abgeschlossen habe – jedoch nicht mit Perplexity. Trotz einer Unterlassungsaufforderung im Mai 2024 habe das Scraping weiter zugenommen – und sich in den darauffolgenden Monaten sogar vervierzigfacht. Die Plattform beschuldigt die Beklagten, Community-Daten zu Profitzwecken auszunutzen und gegen US-amerikanische Computer- und Datenschutzgesetze zu verstoßen.
Reaktionen von Perplexity und Partnern
Perplexity AI weist die Vorwürfe zurück und betont, im Rahmen der geltenden Gesetze zu handeln. Ein Unternehmenssprecher erklärte, Perplexity werde „weiterhin für einen fairen und offenen Zugang zu öffentlichen Informationen kämpfen.“
Auch SerpApi will sich verteidigen und gibt an, vollständig im Einklang mit den US-Vorschriften zu agieren. Oxylabs erklärte, Reddit vor der Klageeinreichung nie direkt kontaktiert worden zu sein.
Größere Auswirkungen
Der Fall entfacht erneut die Debatte darüber, wem Online-Daten im Zeitalter des Datenscrapings für KI tatsächlich gehören. Plattformen wie Reddit betrachten ihre Inhalte als geschützte Vermögenswerte, während KI-Entwickler öffentliche Webdaten als essenziell für das Modelltraining ansehen. Das Urteil könnte bestimmen, wie KI-Unternehmen künftig Daten beschaffen und welche rechtlichen Verpflichtungen sie erfüllen müssen.
Mögliche Folgen
Sollte das Gericht Reddit recht geben, könnten KI-Unternehmen mit strengeren Auflagen und höheren Kosten bei der Datenerhebung konfrontiert werden. Viele könnten gezwungen sein, kostenpflichtige Lizenzvereinbarungen abzuschließen, um künftige Klagen zu vermeiden. Das Urteil könnte außerdem Regulierungsbehörden dazu veranlassen, klarere Richtlinien zur Nutzung von Online-Inhalten in der KI-Entwicklung zu schaffen.
Fazit
Die Klage von Reddit gegen Perplexity AI und die angeblichen Partner unterstreicht den wachsenden Konflikt um Datenscraping für KI. Der Fall könnte die Grenzen zwischen offenem Zugang und Eigentumsrechten im KI-Zeitalter neu definieren. Mit zunehmender rechtlicher Prüfung müssen sowohl Plattformen als auch KI-Unternehmen strengere Standards für Datennutzung und Transparenz einhalten.


0 Kommentare zu „Datenscraping für KI löst Reddit-Klage gegen Perplexity aus“