Cloudflare har avslørt at Perplexity bryter scraping-regler ved å omgå nettsidebeskyttelse og hente innhold som egentlig skulle være utilgjengelig. Den AI-drevne søkemotoren skal ha brukt uregistrerte crawlere for å få tilgang til data fra nettsteder som eksplisitt hadde blokkert roboter via robots.txt og brannmurinnstillinger.


Slik omgår Perplexity reglene

Når nettsteder blokkerte Perplexitys kjente crawlere, skal selskapet ha endret taktikk. De begynte å bruke skjulte crawlere som utga seg for å være vanlige nettlesere. Disse crawlerne roterte mellom ulike IP-adresser og user-agent-strenger, noe som gjorde dem vanskelige å oppdage.

Cloudflare oppdaget denne atferden ved å sette opp feller – nettsider som ikke var offentlig tilgjengelige og var konfigurert til å blokkere alle roboter. Til tross for disse sperrene fikk Perplexity tilgang til innholdet, noe som beviste at de ignorerte no-crawl-direktivene.


Hvorfor dette er viktig

Robots.txt er en veletablert nettstandard som forteller automatiserte systemer hvilket innhold de har lov til å hente. Selv om den ikke er juridisk bindende, er den etisk viktig for hvordan nettet fungerer. Når AI-selskaper ser bort fra disse reglene, undergraver de tilliten mellom nettsideeierne og automatiserte verktøy.

Som respons fjernet Cloudflare Perplexity fra listen over verifiserte roboter og styrket sine tiltak for å blokkere selskapets trafikk.


Perplexitys svar

Perplexity hevder at de ikke crawler nettet på tradisjonelt vis. Ifølge selskapet henter AI-agentene kun sider når brukere etterspør dem. Men Cloudflares funn antyder en bredere og mer vedvarende datainnsamling som strider mot denne forklaringen.


Et økende problem for nettet

Ettersom AI-selskaper kjemper om å trene modellene sine på enorme mengder data, tyr flere til aggressive scraping-metoder. Nettstedseiere strammer på sin side inn beskyttelsen. Balansen mellom åpen tilgang og kontroll over innhold er under press, og aktører som Perplexity øker spenningen.


Konklusjon

Cloudflares etterforskning viser at Perplexity bryter scraping-regler ved å bruke skjulte metoder for å få tilgang til begrenset innhold og ignorere robots.txt-direktiver. Saken understreker behovet for åpenhet og etiske retningslinjer for hvordan AI-verktøy samler inn data. Uten klare grenser kan tilliten til det åpne nettet raskt forvitre.


0 svar til “Perplexity ignorerer scraping-regler og bryter robots.txt-direktiver”