Website-Sperren: KI-Suchmaschine kommt mit getarntem Crawler dennoch an Informationen

Thread Starter
Mitglied seit
06.03.2017
Beiträge
113.344
Cloudflare hat ein neues, problematisches Verhalten des KI-basierten Antwortdienstes Perplexity beobachtet. Laut den Analysen des Unternehmens verwendet Perplexity nicht nur seine offiziellen Crawler, sondern greift zunehmend auch auf verdeckte Methoden zurück, um Zugriffsbeschränkungen von Webseiten zu umgehen. Diese Maßnahmen beinhalten unter anderem die Verschleierung der eigenen Identität durch wechselnde User Agents und den Einsatz von verschiedenen IP-Adressen. Darüber hinaus soll der Dienst auch robots.txt-Dateien ignorieren bzw. gar nicht erst abrufen, was den gängigen Standards für das Verhalten von Webcrawlern widerspricht.
... weiterlesen
 
Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
Jetzt wäre nur noch interessant, wie Cloudflare das identifizieren und blockieren konnte, damit man diese Mechanismen evtl. auch auf der eigenen Wegseite einbauen kann.

Es ist schon eine Unverschämtheit von Perplexity, die robots.txt zu ignorieren!
 
Ist doch irgendwie klar...

Wie will man einen Crawler daran hindern eine Webseite aufzurufen, die öffentlich verfügbar ist? Ich meine: sie ist ÖFFENTLICH!

Bei der robots.txt hätte ich eigentlich eher gedacht, das der Webserver (z.B. Apache) die ausliest und wenn eine Anfrage kommt, die sich als XYBot ausgibt und in der robots.txt gelistet ist dafür sorgt, das dieser Client keinen Zugriff kriegt.... das würde zwar beheben das man sich nicht darauf verlassen muss, das ein Bot vorher höflich in die Datei guckt und sich dann auch daran hält, aber ein wirksamer Schutz ist das natürlich auch nicht, weil dann sagt der Bot halt einfach nicht mehr das er dieser oder jener Bot ist.
 
die robots.txt ignorieren? das gibts doch nicht...
 
Auch wenn eine Webseite öffentlich ist, so hat der Webseitenbetreiber immer noch Hausrecht und bestimmt, wer Zugriff hat und wer nicht.
Ein Bus eines ÖPNV ist auch öffentlich und trotzdem hat das Verkehrsunternehmen Hausrecht im Bus und darf die Mitfahrt bestimmter Personen verweigern.
Daher geht das Ignorieren der robots.txt gar nicht!
 
Auch wenn eine Webseite öffentlich ist, so hat der Webseitenbetreiber immer noch Hausrecht und bestimmt, wer Zugriff hat und wer nicht.
Jup, hat er... das darf er auch umsetzen.... sofern er das überhaupt irgendwie kann. Und genau das kann er eben nicht. Wenn eine Webseite öffentlich erreichbar ist, kommt da jeder drauf, wenn er nur will... eben auch jeder Bot.

Ein Bus eines ÖPNV ist auch öffentlich und trotzdem hat das Verkehrsunternehmen Hausrecht im Bus und darf die Mitfahrt bestimmter Personen verweigern.
Wäre mir neu, das rotzbesoffene Fahrgäste, Diebe oder ähnliches freiwillig nicht in einen Bus einsteigen. :ROFLMAO: Da muss auch der Busfahrer dafür sorgen, notfalls die Polizei dazukommen und das passiert alles nur, wenn der Busfahrer das Problem überhaupt erkennen kann.

Selbst wenn man in einer Kneipe Hausverbot hat... wenn man sich verkleidet, so das der Türsteher einen nichtmehr erkennt und auch nicht erkennt, das man verkleidet ist, kommt man halt trotzdem rein. Keine Ahnung ob das dann direkt illegal ist (Hausfriedensbruch oder so?), aber wenns keiner merkt... oder erst später bemerkt wird, das da jemand drin war, der eigentlich nicht reinkommen sollte, ists doch eh schon zu spät.
 
früher war man doch froh wenn der google crawler endlich mal die eigene webseite besucht und indexiert hat
 
Jup, hat er... das darf er auch umsetzen.... sofern er das überhaupt irgendwie kann. Und genau das kann er eben nicht. Wenn eine Webseite öffentlich erreichbar ist, kommt da jeder drauf, wenn er nur will... eben auch jeder Bot.


Wäre mir neu, das rotzbesoffene Fahrgäste, Diebe oder ähnliches freiwillig nicht in einen Bus einsteigen. :ROFLMAO: Da muss auch der Busfahrer dafür sorgen, notfalls die Polizei dazukommen und das passiert alles nur, wenn der Busfahrer das Problem überhaupt erkennen kann.

Selbst wenn man in einer Kneipe Hausverbot hat... wenn man sich verkleidet, so das der Türsteher einen nichtmehr erkennt und auch nicht erkennt, das man verkleidet ist, kommt man halt trotzdem rein. Keine Ahnung ob das dann direkt illegal ist (Hausfriedensbruch oder so?), aber wenns keiner merkt... oder erst später bemerkt wird, das da jemand drin war, der eigentlich nicht reinkommen sollte, ists doch eh schon zu spät.
Früher gabs auch Busse mit Schranke.
Die hat sich nur geöffnet, wenn man seine Fahrkarte in den Entwerter gesteckt hat.

Und ja, wenn ein Crawler die robots.txt ignoriert, ist das rechtlich ähnlich wie Hausfriedensbruch.
Um unliebsame Besucher fernzuhalten nutzen viele Webseiten ja inzwischen auch z.B. Cloudflare oder ähnliche Dienste.
 
Früher gabs auch Busse mit Schranke.
Die hat sich nur geöffnet, wenn man seine Fahrkarte in den Entwerter gesteckt hat.
Auch wenn man eine Fahrkarte hat, kann man ein unerwünschter Gast sein.

Und ja, wenn ein Crawler die robots.txt ignoriert, ist das rechtlich ähnlich wie Hausfriedensbruch.
Um unliebsame Besucher fernzuhalten nutzen viele Webseiten ja inzwischen auch z.B. Cloudflare oder ähnliche Dienste.
Und selbst die schaffen es nicht derartige Bots und danach das Auftauchen in Suchergenissen zuverlässig fernzuhalten. Genau das sagt ja die News auf die wir hier antworten eben aus.
Ich habe ja auch mit keinem einzigen Wort behauptet, das der Aufwand der da getrieben wird nicht rechtens wäre.

Ich halte es aber für absolut utopisch zu glauben, eine öffentlich erreichbare Webseite zuverlässig vor unerwünschten Zugriffen schützen zu können. Wer etwas öffentlich erreichbar online stellt, MUSS damit rechnen, das die Inhalte von irgendwelchen Bots indiziert werden und über irgendwelche Suchmaschinen dann auch gefunden werden können.

Der robots.txt-Ansatz ist ansich schon hirnrissig. Was soll das bringen? Ja, mag ja sein, das sich der Google- oder Yahoo- oder Duckduckgo-Bot dran hält. Sofern ich diese dort überhaupt liste. Und wenn morgen ein neuer Chingcheng-Bot auftaucht... dann indiziert der meine Seite trotzdem, weil er nicht in meiner robots.txt steht, weil ich den Bot ja bisher noch nichtmal kannte.
Blacklisting ist in der Hinsicht einfach grundsätzlich sowas von fürn Arsch. Und Whitelisting ja trotzdem nur "freiwillig".

Du kannst vielleicht alles hinter einem Captcha halten (um eben nicht gleich auf Benutzeraccounts zu setzen)... deine gewünschten Benutzer werden sich dafür aber sicherlich ausschweifend bedanken.
 
Zuletzt bearbeitet:
@Liesel Weppen

Grundsätzlich scheinst du nicht viel Ahnung von der robots.txt zu haben

Du kannst nicht nicht nur User Agents damit erlauben bzw ausschließen sondern auch ganze Ordner-/Strukturen welche nicht indexiert werden dürfen. Oder der Suchmaschine diverse sitemap.xml mitgeben welche das crawlen einfacher macht.

Weiterhin komisch das sich die letzten Jahrzehnte so gut wie alle Suchmaschinen daran gehalten haben - nur jetzt wo plötzlich alle Welt mit ihrer bescheuerten KI alles indiziert was nicht verschlossen ist soll das plötzlich alles genauso i.O. sein... Komisches Verständnis ^^

Und ob der wenig Berührungspunkte deinerseits - joa, dafür hast du ziemlich viel Meinung dazu...
 
Du kannst nicht nicht nur User Agents damit erlauben bzw ausschließen sondern auch ganze Ordner-/Strukturen welche nicht indexiert werden dürfen. Oder der Suchmaschine diverse sitemap.xml mitgeben welche das crawlen einfacher macht.
Widerspricht irgendwelcher meiner Aussagen worin? Was hat das mit irgendwelcher meiner Aussagen überhaupt zu tun?

Weiterhin komisch das sich die letzten Jahrzehnte so gut wie alle Suchmaschinen daran gehalten
Du sagst es ja selber: Die Suchmaschinen müssen sich freiwillig daran halten. Wobei freiwillig sogar noch untertrieben ist... denn sie müssen sogar erst aktiv darauf zugreifen und sich dann entscheiden sich daran zu halten.

Und ob der wenig Berührungspunkte deinerseits - joa, dafür hast du ziemlich viel Meinung dazu...
Mag sein, hat aber alles überhaupt nichts damit zu tun, worüber ich hier die ganze Zeit schreibe. Von mir aus kannst du das Format einer robots.txt im Schlaf Nachts im Binärformat aufsagen... das ändert auch nichts daran, das man sich nur darauf verlässt, das andere das schon "richtig" machen.
Du scheinst sehr viel Ahnung zu haben, aber hast das Thema hier nicht verstanden.
 
robots ist genauso hilfreich wie der do not track header
eine höflichkeitsrichtlinie für gute bots, wer meint damit was verstecken zu können glaubt auch das zitronenfalter zitronen falten
 
Naja, an geltende Gesetze muß man sich auch "freiwillig" halten.
Sieht man immer wieder im Straßenverkehr, wo es viele Zeitgenossen gibt, die meinen, Verkehrsregeln würden für sie nicht gelten.
Geschwindigkeitsbegrenzungen werden nicht eingehalten, sie müssten keine Rettungsgasse bilden, könnten im Halte- und Parkverbot halten und parken, etc. etc.
Das Internet ist in RFCs geregelt und Crawler, etc. etc. haben sich an die RFCs zu halten!
D.H., auch die robots.txt zu beachten.
 
welches gesetz soll das denn sein und wer soll es durchsetzen
und wenn Uschi mal wieder im internet ein Stopschild aufstellt hälst du dann auch brav und biegst mit dem Browser rechts ab?
 
Naja, an geltende Gesetze muß man sich auch "freiwillig" halten.
Die werden aber kontrolliert und bei Verstößen verfolgt und es hat Konsequenzen aka Strafen, von Geldstrafen bis sogar Gefängnis.

Sieht man immer wieder im Straßenverkehr, wo es viele Zeitgenossen gibt, die meinen, Verkehrsregeln würden für sie nicht gelten.
Genau, und obwohl es ernsthafte Konsequenzen haben kann, halten sich viele Menschen trotzdem nicht (immer) daran.
Ich will nicht wissen, wie es im Strassenverkehr zuginge, wenn es zwar Verkehrsregeln gäbe, die aber absolut nicht durch eine Kontrollinstanz wie die Polizei auch durchgesetzt werden würden... also nichtmal das geringste Risiko besteht, z.B. mit 200 in einer Zone 30 geblitzt zu werden.

Das Internet ist in RFCs geregelt und Crawler, etc. etc. haben sich an die RFCs zu halten!
D.H., auch die robots.txt zu beachten.
Wer setzt es durch? Was sind die Konsequenzen?
Richtig, es gibt keine. Ergo juckt es noch weniger Leute. Man kann es ja bis zum Exzess versuchen, selbst wenn man erwischt wird, passiert ja trotzdem nichts.

Ich verstehe nicht, was daran so schwer zu verstehen ist. In welcher Fantasiewelt lebt ihr zu glauben, das niemanden gibt, der einfach nur drauf scheißt, vorallem wenn es doch sowieso keine Konsequenzen hat.

Ist genauso sinnlos wie wenn dich Pornhub vorab frägt ob du schon 18 bist und du ja oder nein klicken musst. :ROFLMAO:
 
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh