Website-Sperren: KI-Suchmaschine kommt mit getarntem Crawler dennoch an Informationen

HWL News Bot · 05.08.2025

Cloudflare hat ein neues, problematisches Verhalten des KI-basierten Antwortdienstes Perplexity beobachtet. Laut den Analysen des Unternehmens verwendet Perplexity nicht nur seine offiziellen Crawler, sondern greift zunehmend auch auf verdeckte Methoden zurück, um Zugriffsbeschränkungen von Webseiten zu umgehen. Diese Maßnahmen beinhalten unter anderem die Verschleierung der eigenen Identität durch wechselnde User Agents und den Einsatz von verschiedenen IP-Adressen. Darüber hinaus soll der Dienst auch robots.txt-Dateien ignorieren bzw. gar nicht erst abrufen, was den gängigen Standards für das Verhalten von Webcrawlern widerspricht.
... weiterlesen

passat3233 · 05.08.2025

Jetzt wäre nur noch interessant, wie Cloudflare das identifizieren und blockieren konnte, damit man diese Mechanismen evtl. auch auf der eigenen Wegseite einbauen kann.

Es ist schon eine Unverschämtheit von Perplexity, die robots.txt zu ignorieren!

Liesel Weppen · 05.08.2025

Ist doch irgendwie klar...

Wie will man einen Crawler daran hindern eine Webseite aufzurufen, die öffentlich verfügbar ist? Ich meine: sie ist ÖFFENTLICH!

Bei der robots.txt hätte ich eigentlich eher gedacht, das der Webserver (z.B. Apache) die ausliest und wenn eine Anfrage kommt, die sich als XYBot ausgibt und in der robots.txt gelistet ist dafür sorgt, das dieser Client keinen Zugriff kriegt.... das würde zwar beheben das man sich nicht darauf verlassen muss, das ein Bot vorher höflich in die Datei guckt und sich dann auch daran hält, aber ein wirksamer Schutz ist das natürlich auch nicht, weil dann sagt der Bot halt einfach nicht mehr das er dieser oder jener Bot ist.

Schmufix · 05.08.2025

die robots.txt ignorieren? das gibts doch nicht...

passat3233 · 05.08.2025

Auch wenn eine Webseite öffentlich ist, so hat der Webseitenbetreiber immer noch Hausrecht und bestimmt, wer Zugriff hat und wer nicht.
Ein Bus eines ÖPNV ist auch öffentlich und trotzdem hat das Verkehrsunternehmen Hausrecht im Bus und darf die Mitfahrt bestimmter Personen verweigern.
Daher geht das Ignorieren der robots.txt gar nicht!

Liesel Weppen · 05.08.2025

passat3233 schrieb:
Auch wenn eine Webseite öffentlich ist, so hat der Webseitenbetreiber immer noch Hausrecht und bestimmt, wer Zugriff hat und wer nicht.

Jup, hat er... das darf er auch umsetzen.... sofern er das überhaupt irgendwie kann. Und genau das kann er eben nicht. Wenn eine Webseite öffentlich erreichbar ist, kommt da jeder drauf, wenn er nur will... eben auch jeder Bot.

passat3233 schrieb:
Ein Bus eines ÖPNV ist auch öffentlich und trotzdem hat das Verkehrsunternehmen Hausrecht im Bus und darf die Mitfahrt bestimmter Personen verweigern.

Wäre mir neu, das rotzbesoffene Fahrgäste, Diebe oder ähnliches freiwillig nicht in einen Bus einsteigen.

Da muss auch der Busfahrer dafür sorgen, notfalls die Polizei dazukommen und das passiert alles nur, wenn der Busfahrer das Problem überhaupt erkennen kann.

Selbst wenn man in einer Kneipe Hausverbot hat... wenn man sich verkleidet, so das der Türsteher einen nichtmehr erkennt und auch nicht erkennt, das man verkleidet ist, kommt man halt trotzdem rein. Keine Ahnung ob das dann direkt illegal ist (Hausfriedensbruch oder so?), aber wenns keiner merkt... oder erst später bemerkt wird, das da jemand drin war, der eigentlich nicht reinkommen sollte, ists doch eh schon zu spät.

Schmufix · 05.08.2025

früher war man doch froh wenn der google crawler endlich mal die eigene webseite besucht und indexiert hat

passat3233 · 05.08.2025

Liesel Weppen schrieb:
Jup, hat er... das darf er auch umsetzen.... sofern er das überhaupt irgendwie kann. Und genau das kann er eben nicht. Wenn eine Webseite öffentlich erreichbar ist, kommt da jeder drauf, wenn er nur will... eben auch jeder Bot.

Wäre mir neu, das rotzbesoffene Fahrgäste, Diebe oder ähnliches freiwillig nicht in einen Bus einsteigen. Da muss auch der Busfahrer dafür sorgen, notfalls die Polizei dazukommen und das passiert alles nur, wenn der Busfahrer das Problem überhaupt erkennen kann.

Selbst wenn man in einer Kneipe Hausverbot hat... wenn man sich verkleidet, so das der Türsteher einen nichtmehr erkennt und auch nicht erkennt, das man verkleidet ist, kommt man halt trotzdem rein. Keine Ahnung ob das dann direkt illegal ist (Hausfriedensbruch oder so?), aber wenns keiner merkt... oder erst später bemerkt wird, das da jemand drin war, der eigentlich nicht reinkommen sollte, ists doch eh schon zu spät.

Früher gabs auch Busse mit Schranke.
Die hat sich nur geöffnet, wenn man seine Fahrkarte in den Entwerter gesteckt hat.

Und ja, wenn ein Crawler die robots.txt ignoriert, ist das rechtlich ähnlich wie Hausfriedensbruch.
Um unliebsame Besucher fernzuhalten nutzen viele Webseiten ja inzwischen auch z.B. Cloudflare oder ähnliche Dienste.

Liesel Weppen · 05.08.2025

passat3233 schrieb:
Früher gabs auch Busse mit Schranke.
Die hat sich nur geöffnet, wenn man seine Fahrkarte in den Entwerter gesteckt hat.

Auch wenn man eine Fahrkarte hat, kann man ein unerwünschter Gast sein.

passat3233 schrieb:
Und ja, wenn ein Crawler die robots.txt ignoriert, ist das rechtlich ähnlich wie Hausfriedensbruch.
Um unliebsame Besucher fernzuhalten nutzen viele Webseiten ja inzwischen auch z.B. Cloudflare oder ähnliche Dienste.

Und selbst die schaffen es nicht derartige Bots und danach das Auftauchen in Suchergenissen zuverlässig fernzuhalten. Genau das sagt ja die News auf die wir hier antworten eben aus.
Ich habe ja auch mit keinem einzigen Wort behauptet, das der Aufwand der da getrieben wird nicht rechtens wäre.

Ich halte es aber für absolut utopisch zu glauben, eine öffentlich erreichbare Webseite zuverlässig vor unerwünschten Zugriffen schützen zu können. Wer etwas öffentlich erreichbar online stellt, MUSS damit rechnen, das die Inhalte von irgendwelchen Bots indiziert werden und über irgendwelche Suchmaschinen dann auch gefunden werden können.

Der robots.txt-Ansatz ist ansich schon hirnrissig. Was soll das bringen? Ja, mag ja sein, das sich der Google- oder Yahoo- oder Duckduckgo-Bot dran hält. Sofern ich diese dort überhaupt liste. Und wenn morgen ein neuer Chingcheng-Bot auftaucht... dann indiziert der meine Seite trotzdem, weil er nicht in meiner robots.txt steht, weil ich den Bot ja bisher noch nichtmal kannte.
Blacklisting ist in der Hinsicht einfach grundsätzlich sowas von fürn Arsch. Und Whitelisting ja trotzdem nur "freiwillig".

Du kannst vielleicht alles hinter einem Captcha halten (um eben nicht gleich auf Benutzeraccounts zu setzen)... deine gewünschten Benutzer werden sich dafür aber sicherlich ausschweifend bedanken.

LuxSkywalker · 06.08.2025

@Liesel Weppen

Grundsätzlich scheinst du nicht viel Ahnung von der robots.txt zu haben

Du kannst nicht nicht nur User Agents damit erlauben bzw ausschließen sondern auch ganze Ordner-/Strukturen welche nicht indexiert werden dürfen. Oder der Suchmaschine diverse sitemap.xml mitgeben welche das crawlen einfacher macht.

Weiterhin komisch das sich die letzten Jahrzehnte so gut wie alle Suchmaschinen daran gehalten haben - nur jetzt wo plötzlich alle Welt mit ihrer bescheuerten KI alles indiziert was nicht verschlossen ist soll das plötzlich alles genauso i.O. sein... Komisches Verständnis ^^

Und ob der wenig Berührungspunkte deinerseits - joa, dafür hast du ziemlich viel Meinung dazu...

Liesel Weppen · 06.08.2025

LuxSkywalker schrieb:
Du kannst nicht nicht nur User Agents damit erlauben bzw ausschließen sondern auch ganze Ordner-/Strukturen welche nicht indexiert werden dürfen. Oder der Suchmaschine diverse sitemap.xml mitgeben welche das crawlen einfacher macht.

Widerspricht irgendwelcher meiner Aussagen worin? Was hat das mit irgendwelcher meiner Aussagen überhaupt zu tun?

LuxSkywalker schrieb:
Weiterhin komisch das sich die letzten Jahrzehnte so gut wie alle Suchmaschinen daran gehalten

Du sagst es ja selber: Die Suchmaschinen müssen sich freiwillig daran halten. Wobei freiwillig sogar noch untertrieben ist... denn sie müssen sogar erst aktiv darauf zugreifen und sich dann entscheiden sich daran zu halten.

LuxSkywalker schrieb:
Und ob der wenig Berührungspunkte deinerseits - joa, dafür hast du ziemlich viel Meinung dazu...

Mag sein, hat aber alles überhaupt nichts damit zu tun, worüber ich hier die ganze Zeit schreibe. Von mir aus kannst du das Format einer robots.txt im Schlaf Nachts im Binärformat aufsagen... das ändert auch nichts daran, das man sich nur darauf verlässt, das andere das schon "richtig" machen.
Du scheinst sehr viel Ahnung zu haben, aber hast das Thema hier nicht verstanden.

Schmufix · 06.08.2025

robots ist genauso hilfreich wie der do not track header
eine höflichkeitsrichtlinie für gute bots, wer meint damit was verstecken zu können glaubt auch das zitronenfalter zitronen falten

passat3233 · 06.08.2025

Naja, an geltende Gesetze muß man sich auch "freiwillig" halten.
Sieht man immer wieder im Straßenverkehr, wo es viele Zeitgenossen gibt, die meinen, Verkehrsregeln würden für sie nicht gelten.
Geschwindigkeitsbegrenzungen werden nicht eingehalten, sie müssten keine Rettungsgasse bilden, könnten im Halte- und Parkverbot halten und parken, etc. etc.
Das Internet ist in RFCs geregelt und Crawler, etc. etc. haben sich an die RFCs zu halten!
D.H., auch die robots.txt zu beachten.

Schmufix · 06.08.2025

welches gesetz soll das denn sein und wer soll es durchsetzen
und wenn Uschi mal wieder im internet ein Stopschild aufstellt hälst du dann auch brav und biegst mit dem Browser rechts ab?

Liesel Weppen · 06.08.2025

passat3233 schrieb:
Naja, an geltende Gesetze muß man sich auch "freiwillig" halten.

Die werden aber kontrolliert und bei Verstößen verfolgt und es hat Konsequenzen aka Strafen, von Geldstrafen bis sogar Gefängnis.

passat3233 schrieb:
Sieht man immer wieder im Straßenverkehr, wo es viele Zeitgenossen gibt, die meinen, Verkehrsregeln würden für sie nicht gelten.

Genau, und obwohl es ernsthafte Konsequenzen haben kann, halten sich viele Menschen trotzdem nicht (immer) daran.
Ich will nicht wissen, wie es im Strassenverkehr zuginge, wenn es zwar Verkehrsregeln gäbe, die aber absolut nicht durch eine Kontrollinstanz wie die Polizei auch durchgesetzt werden würden... also nichtmal das geringste Risiko besteht, z.B. mit 200 in einer Zone 30 geblitzt zu werden.

passat3233 schrieb:
Das Internet ist in RFCs geregelt und Crawler, etc. etc. haben sich an die RFCs zu halten!
D.H., auch die robots.txt zu beachten.

Wer setzt es durch? Was sind die Konsequenzen?
Richtig, es gibt keine. Ergo juckt es noch weniger Leute. Man kann es ja bis zum Exzess versuchen, selbst wenn man erwischt wird, passiert ja trotzdem nichts.

Ich verstehe nicht, was daran so schwer zu verstehen ist. In welcher Fantasiewelt lebt ihr zu glauben, das niemanden gibt, der einfach nur drauf scheißt, vorallem wenn es doch sowieso keine Konsequenzen hat.

Ist genauso sinnlos wie wenn dich Pornhub vorab frägt ob du schon 18 bist und du ja oder nein klicken musst.

LuxSkywalker · 06.08.2025

Liesel Weppen schrieb:
Widerspricht irgendwelcher meiner Aussagen worin? Was hat das mit irgendwelcher meiner Aussagen überhaupt zu tun?

ganz einfach: du hast dich in deinen ganzen bisherigen Posts nur auf Bots bezogen - das ist aber nicht alles was die robots.txt regelt.

Liesel Weppen schrieb:
Du sagst es ja selber: Die Suchmaschinen müssen sich freiwillig daran halten. Wobei freiwillig sogar noch untertrieben ist... denn sie müssen sogar erst aktiv darauf zugreifen und sich dann entscheiden sich daran zu halten.

korrekt - bevor diese KI Seuche losgetreten wurde haben sich auch sogut wie alle Suchmaschinen dran gehalten

Liesel Weppen schrieb:
...aber hast das Thema hier nicht verstanden.

sehe ich anders - wenn du nur teilweise auf die Funktionen einer per RFC geregelten robots.txt eingehst musst du auch damit leben das es dir jemand einfach mal erklärt BEVOR jemand anderes unbedraftes diesen Thread liest und dann das nachbrabbelt was du hier so schreibst

passat3233 · 06.08.2025

Schmufix schrieb:
welches gesetz soll das denn sein und wer soll es durchsetzen
und wenn Uschi mal wieder im internet ein Stopschild aufstellt hälst du dann auch brav und biegst mit dem Browser rechts ab?

Die ganzen Sachen sind über RFCs geregelt.
RFCs sind vergleichbar mit Normen. Da drin sind technische und organisatorische Dinge bzgl. Internet definiert.
Wenn da jeder seinen eigenen Kram machen würde, würde das Internet schlicht nicht funktionieren.

Liesel Weppen · 06.08.2025

Wir reden über komplett unterschiedliche Sachen. Ich habe jetzt verstanden, das ihr entweder nicht lest oder nicht verstehen wollt was ich schreibe, und nochweniger darauf eingehen wollt. So ein Gespräch weiterzuführen ist einfach nur verschwendete Lebenszeit (Gibts einen RFC in dem steht, das man dafür eine Schadensersatzklage geltend machen kann?).

Schmufix · 06.08.2025

das rfc für die robots.txt bezieht sich auf seinen inhalt, nicht auf seine anwendung
mit anderen worten wenn ich die robots beachten wollte finde ich dort alles wie das geht

Suche

Website-Sperren: KI-Suchmaschine kommt mit getarntem Crawler dennoch an Informationen

HWL News Bot

News

passat3233

Urgestein

Liesel Weppen

Urgestein

Schmufix

Profi

passat3233

Urgestein

Liesel Weppen

Urgestein

Schmufix

Profi

passat3233

Urgestein

Liesel Weppen

Urgestein

LuxSkywalker

Urgestein

Liesel Weppen

Urgestein

Schmufix

Profi

passat3233

Urgestein

Schmufix

Profi

Liesel Weppen

Urgestein

LuxSkywalker

Urgestein

passat3233

Urgestein

Liesel Weppen

Urgestein

Schmufix

Profi