Cloudflare har afsløret, at Perplexity overtræder scraping-regler ved at omgå beskyttede websites og hente indhold, der burde være utilgængeligt. Den AI-drevne søgemaskine har angiveligt brugt udeklarerede crawlere til at få adgang til data fra sider, der specifikt har blokeret bots via robots.txt og firewall-indstillinger.
Sådan omgår Perplexity reglerne
Når websites blokerede Perplexitys kendte crawlere, skiftede virksomheden angiveligt taktik. Den begyndte at bruge skjulte crawlere, der forklædte sig som almindelige browsere. Disse crawlere roterede mellem forskellige IP-adresser og user-agent-strenge, hvilket gjorde dem svære at identificere.
Cloudflare opdagede denne adfærd ved at oprette fældesider – ikke-offentliggjorte websites, der var konfigureret til at blokere alle crawlere. På trods af begrænsningerne fik Perplexity adgang til indholdet, hvilket beviste, at de ignorerede no-crawl-direktiverne.
Hvorfor det er vigtigt
Robots.txt er en veletableret internetstandard, der fortæller bots, hvilket indhold de må tilgå. Selvom den ikke er juridisk bindende, udgør den det etiske fundament for, hvordan nettet fungerer. Når AI-virksomheder ignorerer disse regler, underminerer de tilliden mellem websiteejere og automatiserede systemer.
Cloudflare reagerede ved at fjerne Perplexity fra deres liste over verificerede bots og forstærke deres forsvar mod virksomhedens trafik.
Perplexitys svar
Perplexity hævder, at de ikke crawler internettet på traditionel vis. Ifølge virksomheden henter deres AI-agenter kun sider, når brugere anmoder om dem. Men Cloudflares fund tyder på en bredere og mere vedvarende strategi for datainhentning, der modsiger denne forklaring.
Et stigende problem for internettet
Mens AI-virksomheder kæmper for at træne deres modeller med enorme datamængder, tager flere platforme nu skridt til at begrænse scraping. Websiteejere strammer kontrollen, og balancen mellem åben adgang og indholdssikkerhed er under pres. Aktører som Perplexity forstærker denne spænding.
Konklusion
Cloudflares undersøgelse viser, at Perplexity bryder scraping-regler og underminerer standarder som robots.txt ved at bruge skjulte metoder til at tilgå begrænset indhold. Sagen understreger behovet for gennemsigtighed og etisk praksis i forbindelse med databrug i AI. Uden klare grænser kan tilliden til det åbne internet hurtigt forsvinde.


0 svar til “Perplexity ignorerer scraping-regler og overtræder robots.txt-direktiver”