Perplexity ignoriert Scraping-Regeln und verletzt Robots.txt-Richtlinien

Cloudflare hat aufgedeckt, dass Perplexity Scraping-Regeln missachtet, indem es Schutzmechanismen auf Webseiten umgeht und Inhalte abruft, die eigentlich gesperrt sind. Die KI-basierte Suchmaschine soll nicht deklarierte Crawler eingesetzt haben, um Daten von Seiten zu sammeln, die Bots ausdrücklich über robots.txt und Firewalls blockiert hatten.

So hat Perplexity die Regeln umgangen

Als Webseiten die bekannten Crawler von Perplexity blockierten, änderte das Unternehmen laut Cloudflare seine Taktik. Es setzte verdeckte Crawler ein, die sich als normale Browser ausgaben. Diese wechselten regelmäßig IP-Adressen und User-Agent-Strings, um unerkannt zu bleiben.

Cloudflare entdeckte dieses Verhalten durch sogenannte „Fallen-Domains“ – nicht veröffentlichte Webseiten, die so konfiguriert waren, dass sie jeglichen Crawler-Zugriff blockieren. Trotz dieser Sperren rief Perplexity Inhalte von diesen Seiten ab – ein klarer Beweis für die Missachtung von No-Crawl-Anweisungen.

Warum dieses Verhalten problematisch ist

Die Datei robots.txt ist ein langjähriger Internetstandard, der automatisierten Systemen mitteilt, welche Inhalte sie abrufen dürfen. Auch wenn sie rechtlich nicht bindend ist, bildet sie die ethische Grundlage für automatisiertes Verhalten im Web. Wenn KI-Firmen diese Regeln ignorieren, untergraben sie das Vertrauen zwischen Websitebetreibern und digitalen Tools.

Als Reaktion darauf entfernte Cloudflare Perplexity aus seiner Liste verifizierter Bots und verschärfte die Abwehrmaßnahmen gegen den Datenverkehr des Unternehmens.

Perplexitys Reaktion

Perplexity bestreitet, das Web im klassischen Sinne zu crawlen. Laut eigener Aussage rufen ihre KI-Agenten nur dann Seiten ab, wenn Nutzer konkret danach suchen. Doch die Ergebnisse der Cloudflare-Untersuchung deuten auf eine weitaus umfassendere und systematischere Datensammlung hin, die dieser Erklärung widerspricht.

Ein wachsendes Problem im Netz

KI-Unternehmen stehen unter Druck, ihre Modelle mit riesigen Datenmengen zu trainieren – und setzen dabei zunehmend auf Scraping-Methoden. Webseitenbetreiber wiederum ziehen die Zügel an. Das Gleichgewicht zwischen freiem Zugang und Schutz des eigenen Inhalts gerät zunehmend ins Wanken, und Firmen wie Perplexity verschärfen diese Entwicklung.

Fazit

Cloudflares Analyse zeigt, dass Perplexity Scraping-Regeln verletzt, indem es mit versteckten Methoden auf gesperrte Inhalte zugreift und robots.txt ignoriert. Der Fall verdeutlicht, wie wichtig Transparenz und ethisches Verhalten im Umgang mit KI-gestützter Datenerhebung sind. Ohne klare Grenzen droht das Vertrauen ins offene Internet schnell zu schwinden.