Perplexity ignorerar scraping-regler och bryter mot robots.txt-direktiv

Cloudflare har avslöjat att Perplexity bryter mot scraping-regler genom att kringgå webbplatsskydd och hämta innehåll som uttryckligen var spärrat. Den AI-drivna sökmotorn ska ha använt icke-deklarerade crawlers för att samla in data från webbplatser som blockerade bottar via robots.txt och brandväggsinställningar.

Så kringgick Perplexity reglerna

När webbplatser blockerade Perplexitys kända crawlers, bytte företaget enligt uppgift strategi. Det började använda dolda crawlers som utgav sig för att vara vanliga webbläsare. Dessa crawlers roterade mellan olika IP-adresser och user-agent-strängar, vilket gjorde dem svåra att upptäcka.

Cloudflare upptäckte detta genom att sätta upp fällsidor – opublicerade webbplatser konfigurerade för att blockera alla crawlers. Trots dessa restriktioner besökte Perplexity dessa sajter, vilket bevisade att bolaget ignorerade no-crawl-direktiv.

Varför det här spelar roll

Robots.txt är en väletablerad webstandard som talar om för bottar vilket innehåll de får och inte får hämta. Även om det inte är juridiskt bindande, utgör det en etisk grundpelare för hur webben fungerar. När AI-företag ignorerar dessa regler, bryts förtroendet mellan webbplatsägare och automatiserade system.

Cloudflare svarade med att ta bort Perplexity från listan över verifierade bottar och stärkte sina försvar för att blockera företagets trafik.

Perplexitys svar

Perplexity hävdar att deras system inte crawlar webben på traditionellt vis. Enligt företaget hämtar deras AI-agenter bara sidor när användare begär dem. Men Cloudflares upptäckter tyder på en bredare och mer ihållande strategi för datainsamling, som motsäger företagets påståenden.

Ett växande problem för webben

I takt med att AI-företag skyndar sig att träna sina modeller på enorma datamängder, använder allt fler plattformar scraping-metoder. Som svar skärper webbplatsägare sina skydd. Balansen mellan öppen tillgång och innehållsskydd är ansträngd, och aktörer som Perplexity förvärrar situationen.

Slutsats

Cloudflares granskning visar att Perplexity kringgår scraping-regler genom att använda dolda metoder för att komma åt skyddat innehåll och ignorera robots.txt-direktiv. Fallet understryker vikten av transparens och etiskt ansvar i AI-baserad datainsamling. Utan tydliga gränser riskerar förtroendet för den öppna webben att snabbt försvagas.