Website-Sperren: KI-Suchmaschine kommt mit getarntem Crawler dennoch an Informationen

Thread Starter
Mitglied seit
06.03.2017
Beiträge
113.339
Cloudflare hat ein neues, problematisches Verhalten des KI-basierten Antwortdienstes Perplexity beobachtet. Laut den Analysen des Unternehmens verwendet Perplexity nicht nur seine offiziellen Crawler, sondern greift zunehmend auch auf verdeckte Methoden zurück, um Zugriffsbeschränkungen von Webseiten zu umgehen. Diese Maßnahmen beinhalten unter anderem die Verschleierung der eigenen Identität durch wechselnde User Agents und den Einsatz von verschiedenen IP-Adressen. Darüber hinaus soll der Dienst auch robots.txt-Dateien ignorieren bzw. gar nicht erst abrufen, was den gängigen Standards für das Verhalten von Webcrawlern widerspricht.
... weiterlesen
 
Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
Jetzt wäre nur noch interessant, wie Cloudflare das identifizieren und blockieren konnte, damit man diese Mechanismen evtl. auch auf der eigenen Wegseite einbauen kann.

Es ist schon eine Unverschämtheit von Perplexity, die robots.txt zu ignorieren!
 
Ist doch irgendwie klar...

Wie will man einen Crawler daran hindern eine Webseite aufzurufen, die öffentlich verfügbar ist? Ich meine: sie ist ÖFFENTLICH!

Bei der robots.txt hätte ich eigentlich eher gedacht, das der Webserver (z.B. Apache) die ausliest und wenn eine Anfrage kommt, die sich als XYBot ausgibt und in der robots.txt gelistet ist dafür sorgt, das dieser Client keinen Zugriff kriegt.... das würde zwar beheben das man sich nicht darauf verlassen muss, das ein Bot vorher höflich in die Datei guckt und sich dann auch daran hält, aber ein wirksamer Schutz ist das natürlich auch nicht, weil dann sagt der Bot halt einfach nicht mehr das er dieser oder jener Bot ist.
 
die robots.txt ignorieren? das gibts doch nicht...
 
Auch wenn eine Webseite öffentlich ist, so hat der Webseitenbetreiber immer noch Hausrecht und bestimmt, wer Zugriff hat und wer nicht.
Ein Bus eines ÖPNV ist auch öffentlich und trotzdem hat das Verkehrsunternehmen Hausrecht im Bus und darf die Mitfahrt bestimmter Personen verweigern.
Daher geht das Ignorieren der robots.txt gar nicht!
 
Auch wenn eine Webseite öffentlich ist, so hat der Webseitenbetreiber immer noch Hausrecht und bestimmt, wer Zugriff hat und wer nicht.
Jup, hat er... das darf er auch umsetzen.... sofern er das überhaupt irgendwie kann. Und genau das kann er eben nicht. Wenn eine Webseite öffentlich erreichbar ist, kommt da jeder drauf, wenn er nur will... eben auch jeder Bot.

Ein Bus eines ÖPNV ist auch öffentlich und trotzdem hat das Verkehrsunternehmen Hausrecht im Bus und darf die Mitfahrt bestimmter Personen verweigern.
Wäre mir neu, das rotzbesoffene Fahrgäste, Diebe oder ähnliches freiwillig nicht in einen Bus einsteigen. :ROFLMAO: Da muss auch der Busfahrer dafür sorgen, notfalls die Polizei dazukommen und das passiert alles nur, wenn der Busfahrer das Problem überhaupt erkennen kann.

Selbst wenn man in einer Kneipe Hausverbot hat... wenn man sich verkleidet, so das der Türsteher einen nichtmehr erkennt und auch nicht erkennt, das man verkleidet ist, kommt man halt trotzdem rein. Keine Ahnung ob das dann direkt illegal ist (Hausfriedensbruch oder so?), aber wenns keiner merkt... oder erst später bemerkt wird, das da jemand drin war, der eigentlich nicht reinkommen sollte, ists doch eh schon zu spät.
 
früher war man doch froh wenn der google crawler endlich mal die eigene webseite besucht und indexiert hat
 
Jup, hat er... das darf er auch umsetzen.... sofern er das überhaupt irgendwie kann. Und genau das kann er eben nicht. Wenn eine Webseite öffentlich erreichbar ist, kommt da jeder drauf, wenn er nur will... eben auch jeder Bot.


Wäre mir neu, das rotzbesoffene Fahrgäste, Diebe oder ähnliches freiwillig nicht in einen Bus einsteigen. :ROFLMAO: Da muss auch der Busfahrer dafür sorgen, notfalls die Polizei dazukommen und das passiert alles nur, wenn der Busfahrer das Problem überhaupt erkennen kann.

Selbst wenn man in einer Kneipe Hausverbot hat... wenn man sich verkleidet, so das der Türsteher einen nichtmehr erkennt und auch nicht erkennt, das man verkleidet ist, kommt man halt trotzdem rein. Keine Ahnung ob das dann direkt illegal ist (Hausfriedensbruch oder so?), aber wenns keiner merkt... oder erst später bemerkt wird, das da jemand drin war, der eigentlich nicht reinkommen sollte, ists doch eh schon zu spät.
Früher gabs auch Busse mit Schranke.
Die hat sich nur geöffnet, wenn man seine Fahrkarte in den Entwerter gesteckt hat.

Und ja, wenn ein Crawler die robots.txt ignoriert, ist das rechtlich ähnlich wie Hausfriedensbruch.
Um unliebsame Besucher fernzuhalten nutzen viele Webseiten ja inzwischen auch z.B. Cloudflare oder ähnliche Dienste.
 
Früher gabs auch Busse mit Schranke.
Die hat sich nur geöffnet, wenn man seine Fahrkarte in den Entwerter gesteckt hat.
Auch wenn man eine Fahrkarte hat, kann man ein unerwünschter Gast sein.

Und ja, wenn ein Crawler die robots.txt ignoriert, ist das rechtlich ähnlich wie Hausfriedensbruch.
Um unliebsame Besucher fernzuhalten nutzen viele Webseiten ja inzwischen auch z.B. Cloudflare oder ähnliche Dienste.
Und selbst die schaffen es nicht derartige Bots und danach das Auftauchen in Suchergenissen zuverlässig fernzuhalten. Genau das sagt ja die News auf die wir hier antworten eben aus.
Ich habe ja auch mit keinem einzigen Wort behauptet, das der Aufwand der da getrieben wird nicht rechtens wäre.

Ich halte es aber für absolut utopisch zu glauben, eine öffentlich erreichbare Webseite zuverlässig vor unerwünschten Zugriffen schützen zu können. Wer etwas öffentlich erreichbar online stellt, MUSS damit rechnen, das die Inhalte von irgendwelchen Bots indiziert werden und über irgendwelche Suchmaschinen dann auch gefunden werden können.

Der robots.txt-Ansatz ist ansich schon hirnrissig. Was soll das bringen? Ja, mag ja sein, das sich der Google- oder Yahoo- oder Duckduckgo-Bot dran hält. Sofern ich diese dort überhaupt liste. Und wenn morgen ein neuer Chingcheng-Bot auftaucht... dann indiziert der meine Seite trotzdem, weil er nicht in meiner robots.txt steht, weil ich den Bot ja bisher noch nichtmal kannte.
Blacklisting ist in der Hinsicht einfach grundsätzlich sowas von fürn Arsch. Und Whitelisting ja trotzdem nur "freiwillig".

Du kannst vielleicht alles hinter einem Captcha halten (um eben nicht gleich auf Benutzeraccounts zu setzen)... deine gewünschten Benutzer werden sich dafür aber sicherlich ausschweifend bedanken.
 
Zuletzt bearbeitet:
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh