Inhalt und Aufbau einer robots.txt

  • Gibt es irgendwo eine Beschreibung´von den bösen Robots? Mir sind einige unklar wie grub-client, grub ...

  • AW: Inhalt und Aufbau einer robots.txt

    Mhh, aber wie sinnvoll ist es, die alle in die robots.txt zu packen?
    Ich nehm fuer sowas dann lieber ein script, wie z.b. das von airport.

  • Was ich mich frag, ist primär, welchen Sinn so eine lange Liste macht. Kann mir nur schwerlich vorstellen, dass die Pappenheimer sich alle an eine robots.txt halten. Hier kriegen sie gleich die Tür vor der Nase zugesperrt.

    Er war Jurist und auch sonst von mäßigem Verstand.

    (Volker Pispers)

  • Wie schon Lorem und auch Margin, stelle ich mir die gleiche Frage. Die wirklich "bösen Bots" halten sich nicht an die robots.txt, denen ist die Schnuppe. Zudem sind in der Liste da oben einige drinnen, die gar keine Bots sind.

    Dein "grub-client" bzw. "grub" ist das hier: *** Link veraltet ***

    Ansonsten, noch ne Liste: *** Link veraltet ***

    Wenn ein Mensch nicht um dich kämpft, hat er nur gewartet, dass du gehst. ;(

  • Der Trick besteht nicht darin, möglichst viele Bots zu sammeln, sondern darin, zu differenzieren zwischen "gut" und "böse". Die guten kommen in die robots.txt (sie sollen ja crawlen, nur halt nicht alles), die bösen werden serverseitig gesperrt (sie sollen nicht crawlen, denn sie verfolgen ausschließlich eigene Interessen).

    Er war Jurist und auch sonst von mäßigem Verstand.

    (Volker Pispers)

  • Zitat von Hecht;31374

    Wenn die wirklich "bösen Bots" sich nicht an die robots.txt halten, weil es denen Schnuppe ist. Wozu sich dann damit befassen und in robots.txt aufnehmen?


    Genau, wie Lorem sagte. Es ist eben eine Mischung. Die Robots.txt ist nützlich für alle Bots, die sich an den Standard halten. Das sind dann aber keine "bösen Bots", sondern eher welche, die man einfach nur so nicht haben will, z.B. Archive-Bot, Yantex, Japanische Sumas, andere private Spider von SEO-Tools etc. Die Sammeln zwar in dem Sinne auch Daten, sind aber nicht böse. Andere, die wirklich böse sind, sei es z.B. ein Spider von einem Proxy etc, denen ist der Standard egal.

    Und eben von den "normalen aber unbrauchbaren" hast Du da auch sehr viele in der Liste, wobei ich mir da aber sicher bin, dass die bei Dir nie aufschlagen werden, weil denen Deine Seite gar nicht interessiert.

    Die Robots.txt ist nur ein Gebot, kein Gesetz. Daran kann man sich halten, muss es aber nicht, eben wie bei den 10 Geboten.

    Ich für meinen Fall habe nur die in der Liste:


    Und das daher, da die aufgefallen sind mit unnötigem Traffik (z.B. IRLbot), sinnlosen URL-Abfragen, die es gar nicht gibt (z.B. Baiduspider) und unklaren Verwendungen der Daten (z.b. BotOnParade).

    Alles andere wird dann von der Bottrap gefangen und wenn es dort zu viel wird, oder wenn die durchkommen und Spam auf dem System versuchen, dann landen die automatisiert in der Sperrliste der htaccess.

    Wenn ein Mensch nicht um dich kämpft, hat er nur gewartet, dass du gehst. ;(

  • Wobei ich ja finde, das da eine Liste in der robots.txt wenig Sinn macht - die unerwünschten bots sperre ich, bzw. leite ich um per per .htaccess. Die IPs der "grossen" dummen bots (baidu, yandex etc) sind ja eh bekannt.

    Wenn ich z.B. wieder mal die glorreiche Idee habe, jemandem Content zu klauen, dann hole ich mir das gemütlich per *** Link veraltet ***, gebe mich da als guter Bot aus und klicke die Option "Ignoriere robots.txt" an.

    Wer zuerst "Datenschutz" sagt, hat verloren.