• robots.txt

    Die robots txt kann Bots von bestimmten Bereichen ausschliessen. Zum Beispiel der Admin Bereich sollte nicht gecrawlt werden oder andere unwichtige Sachen kann man mit den robots txt Regeln definieren. Vielleicht hat ja der ein oder andere mal ein paar Beispiele für eine gute robots txt, die er hier veröffentlichen möchte. Joomla beispielsweise hat eine vorkonfigurierte robots txt, die schon den Adminbereich und die Komponeten Standardmässig ausschliesst. Auf keinen Fall sollte man als ungeübter die robots.txt bearbeiten, wenn man nicht weiss was man da macht. Im schlimmsten Fall wird die Seite gar nicht mehr vom Bot besucht ( alles schon gesehen) und man wird im Internet nicht mehr gefunden.

    Autor: Alex07
    Stand: 20.08.11

    Überarbeitet von:
    am:
    (Du möchtest diese Erklärung zum Thema überarbeiten / erweitern oder hast eine Erklärung zu einem Thema, das hier fehlt?
    Schick uns bitte Deine neue Version per PM. Danke!)

    Sollte Deine Frage zum Thema nun noch nicht beantwortet sein, kannst Du hier jetzt weiterführende Fragen stellen!
    (einfach auf "Antwort" klicken)


  • Die robots.txt ist eine Textdatei, die Webmaster nutzen, um Suchmaschinen-Crawlern (Bots) mitzuteilen, welche Bereiche ihrer Website gecrawlt oder nicht gecrawlt werden sollen. Diese Datei wird im Hauptverzeichnis der Website platziert und dient als Anleitung für Suchmaschinen, um den Zugriff auf bestimmte Teile der Website zu steuern. Das Hauptziel der robots.txt ist es, die Belastung des Webservers zu verringern und sicherzustellen, dass wertvolle Seiten priorisiert werden, indem weniger wichtige oder private Bereiche vom Crawling ausgeschlossen werden.

    Struktur und Syntax der robots.txt

    Eine typische robots.txt-Datei könnte wie folgt aussehen:

    Code
    User-agent: *
    Disallow: /privat/
    Disallow: /temp/
    
    Allow: /
    • User-agent: Bestimmt den Crawler, für den die Regel gilt. Der Stern (*) wird als Platzhalter verwendet, um anzuzeigen, dass die Regel für alle Crawler gilt.
    • Disallow: Gibt Pfade an, die nicht von den angegebenen User-Agents gecrawlt werden sollen. In diesem Beispiel sind das Verzeichnis /privat/ und /temp/ für das Crawling gesperrt.
    • Allow: (nicht in allen Versionen der robots.txt-Syntax erforderlich) Spezifiziert Pfade, die explizit gecrawlt werden dürfen. Dies ist besonders nützlich, um Ausnahmen zu einer breiten Disallow-Regel zu definieren.

    Wichtige Punkte zur robots.txt

    • Nicht zwingend bindend: Obwohl seriöse Suchmaschinen wie Google die Anweisungen in der robots.txt befolgen, sind die Regeln nicht durchsetzbar. Das bedeutet, dass nicht alle Bots die Anweisungen respektieren, insbesondere solche, die für bösartige Zwecke entwickelt wurden.
    • Kein Mittel zum Verstecken: Informationen oder Seiten, die über die robots.txt gesperrt sind, können dennoch öffentlich zugänglich sein. Es ist nicht ratsam, sensible Inhalte ausschließlich über robots.txt zu schützen.
    • Potenzielle SEO-Auswirkungen: Ein falsch konfiguriertes robots.txt-File kann dazu führen, dass wichtige Seiten von der Indexierung ausgeschlossen werden, was die Sichtbarkeit in den Suchergebnissen beeinträchtigt.
    • Syntaxfehler vermeiden: Fehler in der robots.txt können unbeabsichtigte Folgen haben, wie das Blockieren des gesamten Webauftritts. Daher ist es wichtig, die Datei sorgfältig zu erstellen und zu testen.

    Prüfwerkzeuge

    Google bietet in der Search Console ein Tool zur Prüfung der robots.txt an, mit dem Webmaster überprüfen können, ob ihre robots.txt-Datei korrekt formatiert ist und wie Google die Anweisungen interpretiert. Dieses Tool kann auch dazu verwendet werden, zu testen, ob bestimmte URLs durch die robots.txt-Regeln blockiert werden.

    Zusammenfassend ist die robots.txt ein wichtiges Werkzeug für Webmaster, um zu steuern, wie Suchmaschinen ihre Websites crawlen. Eine korrekt konfigurierte robots.txt hilft dabei, die Effizienz des Crawl-Prozesses zu verbessern und sicherzustellen, dass die wichtigsten Inhalte einer Website priorisiert werden.

    wenn etwas möglich erscheint mach ich das, wenn das nicht klappt gehts ans unmögliche und ansonsten das undenkbare.

    - nun stolz rauchfrei - Ich denke also Bing ich!

    Support 24h Bereitschaft 0173 6107465 - NUR Für Kunden von SEO NW!