Immer wieder taucht die Frage auf, wie sich der Zugriff von Crawlern auf bestimmte Bereiche einer Webseite steuern lässt. Besonders relevant wird das, wenn sensible Inhalte nicht in Suchmaschinen auftauchen oder von automatisierten Bots erfasst werden sollen.
Ein zentrales Werkzeug dafür ist die robots.txt-Datei. Mit ihr lässt sich festlegen, welche Verzeichnisse oder Dateien von Suchmaschinenbots durchsucht werden dürfen und welche nicht. Allerdings gibt es Einschränkungen zu beachten: Nicht alle Crawler respektieren diese Vorgaben, besonders aggressive oder "bösartige" Bots ignorieren die Anweisungen häufig.
Abseits der robots.txt bieten sich auch andere Möglichkeiten, etwa das Setzen von Meta-Tags wie "noindex" in einzelnen Seiten oder die Nutzung von HTTP-Headern. Wer ganz sicher gehen will, sollte Zugriffe auf sensible Bereiche zusätzlich per Authentifizierung schützen.
Mich interessiert: Welche Ansätze habt ihr genutzt, um den Crawler-Zugriff zu steuern? Welche unerwarteten Erfahrungen gab es – etwa mit hartnäckigen Bots, die robots.txt-Einträge ignorieren?