NEWS

Website-Sperren

KI-Suchmaschine kommt mit getarntem Crawler dennoch an Informationen

Portrait des Authors


KI-Suchmaschine kommt mit getarntem Crawler dennoch an Informationen
8

Werbung

Cloudflare hat ein neues, problematisches Verhalten des KI-basierten Antwortdienstes Perplexity beobachtet. Laut den Analysen des Unternehmens verwendet Perplexity nicht nur seine offiziellen Crawler, sondern greift zunehmend auch auf verdeckte Methoden zurück, um Zugriffsbeschränkungen von Webseiten zu umgehen. Diese Maßnahmen beinhalten unter anderem die Verschleierung der eigenen Identität durch wechselnde User Agents und den Einsatz von verschiedenen IP-Adressen. Darüber hinaus soll der Dienst auch robots.txt-Dateien ignorieren bzw. gar nicht erst abrufen, was den gängigen Standards für das Verhalten von Webcrawlern widerspricht.

Die Erkenntnisse resultieren aus einer Reihe von Tests, die Cloudflare nach Beschwerden mehrerer Kunden durchführte. Diese hatten sowohl in robots.txt als auch über eigene Firewalls den Zugriff durch Perplexity-Bots unterbunden, beobachteten jedoch weiterhin Zugriffe. Cloudflare legte daraufhin neue, bislang unbekannte Domains an und sperrte sämtliche Bots mittels restriktiver Richtlinien. Trotzdem lieferte Perplexity weiterhin detaillierte Antworten über Inhalte, die eigentlich nicht zugänglich sein sollten. Dies deutet darauf hin, dass neben den offiziell deklarierten Bots auch versteckte Mechanismen eingesetzt werden.

Besonders auffällig war wohl ein Crawler, der sich als regulärer Chrome-Browser tarnte und Millionen von Anfragen täglich stellte. Diese Zugriffe kamen aus wechselnden IP-Bereichen und umgingen aktiv bestehende Sperren. Durch den Einsatz von Machine Learning und Netzwerksignalen konnte Cloudflare diesen aber nach eigenen Angaben letztlich identifizieren und blockieren.

Der Unterschied in der Herangehensweise wird schnell deutlich: Während etablierte Crawler transparent agieren, klare Zwecke verfolgen und sich an die Regeln der Webseitenbetreiber halten, versucht Perplexity letztere aktiv zu umgehen. Als positives Gegenbeispiel nennt Cloudflare etwa OpenAI, dessen Bots sowohl robots.txt respektieren als auch bei Netzwerkblockaden keine weiteren unerlaubten Zugriffe versuchen.

Back to top