Sitemap.xml und robots.txt mit .htaccess aus dem Google Index verbannen

  • # Robots noindex sitemap.xml <IfModule mod_headers.c> <FilesMatch "sitemap\.xml$"> Header append X-Robots-Tag "noindex" </FilesMatch> </IfModule>


    # Robots noindex robots.txt <IfModule mod_headers.c> <FilesMatch "robots\.txt$"> Header append X-Robots-Tag "noindex" </FilesMatch> </IfModule>

    Der Test sollte mit web-sniffer.net so aussehen.

    X-Robots-tag: noindex

    Jedoch funktioniert es nicht, es wird damit die ganze Seite blockiert.
    Hat jemand Erfahrung damit?

  • Zitat von Hecht;29853

    Ist hier beschrieben *** Link veraltet ***


    und was bringt dir das?
    kümmer dich um das Ranking deiner anderen für dich wichtigen Seiten!

    Im Nachhinein betrachtet, ist selbst die Sorge um den Tod umsonst!

  • Das Modul mod_headers ist geladen?


    Ich denke das ist die Baustelle von Syno oder Ralf, aber nur es wird doch damit nur ein noindex erreicht, die url bleibt in den serps.
    Und ein noindex für die robots.txt bzw sitemap erscheint mir sinnfrei, dann lösch die Dateien einfach, wenn es z.B. um eine nichtaktuelle sitmap geht.
    Wenn, wie in den Beitrag beschrieben, die sitmap nicht aktualisiert wird, auch nach anpingen in den wmt nicht, dann denke ich - auweia ...

    Frei nach Dieter Nuhr
    Das Internet ist zum Lebensraum der Dauerbeleidigten geworden, die immer einen Grund finden, anderen irgendetwas vorzuwerfen, um sich selbst moralisch zu erhöhen.

  • In den WMT kann man die Sitemap nicht nur aktualisieren, sondern auch vollständig löschen und, sofern gewünscht, eine neue einreichen. Wird sie jedoch gelöscht, sollte sie auch serverseitig gelöscht werden.

    Ferner kann man auch nicht erwünschte Files in den WMT aus den Serps löschen. Ist vielleicht der einfachere Weg, statt durch die Brust ins Auge ^^

    Er war Jurist und auch sonst von mäßigem Verstand.

    (Volker Pispers)

  • Zitat von Margin;29863

    In den WMT kann man die Sitemap nicht nur aktualisieren, sondern auch vollständig löschen und, sofern gewünscht, eine neue einreichen. Wird sie jedoch gelöscht, sollte sie auch serverseitig gelöscht werden.

    Die Frau Preuße schreibt ja:

    Zitat

    Sehr erstaunlich finde ich dabei, dass sich Google bei einem meiner Projekte schon seit mehreren Wochen weigert, mit der täglich aktualisierten sitemap.xml zu arbeiten und stattdessen mit der von ihr indexierten Stand April 2011 arbeitet

    deswegen mein auweia - ich würde anfangen darüber nachzudenken, welcher Satellit befördert wird.

    Frei nach Dieter Nuhr
    Das Internet ist zum Lebensraum der Dauerbeleidigten geworden, die immer einen Grund finden, anderen irgendetwas vorzuwerfen, um sich selbst moralisch zu erhöhen.

  • Deshalb ja, einmal in den WMT komplett löschen, halbe Stunde warten, neue einreichen. Vorher aber unbedingt mal die neue auf irgendwelche Typos, falsche Sonderzeichen usw. hin untersuchen. Da kann nämlich auch der Hund begraben sein, dass die neue nicht vollständig lesbar ist.

    Einfach mal hier durchjagen: *** Link veraltet ***

    (Ähnliches hatte ich auch schon, da war mir einfach irgendwo ein Ä oder Ö reingerutscht und tschüssikovski ...)

    *edit*
    Welches Aktualisierungsdatum steht in den WMT?
    Ist die korrekte Sitemap (Dateiname) & der korrekte Typ eingetragen?

    Er war Jurist und auch sonst von mäßigem Verstand.

    (Volker Pispers)

  • Hecht
    Also das ganze sollte funktionieren, nutze ich so schon über Jahre.

    Allerdings bin ich mir nun nicht sicher, was genau Du mit "sperrt die ganze Seite" meinst und / oder ob der Code exakt so eingebaut ist, wie er oben im Post ist....

    Grund:
    1. So wie oben im Post ist der Code nicht ausführbar, da alles in einer Zeile steht und davor ein # ist. Die Anweisung wird also ignoriert.

    Code
    # Robots noindex sitemap.xml <IfModule mod_headers.c> <FilesMatch "sitemap\.xml$"> Header append X-Robots-Tag "noindex" </FilesMatch> </IfModule>

    2. Ist die Überschrift eine Zeile weiter oben und der Rest in einer Zeile darunter, dann geht es dennoch nicht, denn die Syntax ist dann falsch. Diese Bedingungen <xx> </xx> dürfen nicht in einer Zeile stehen. In diesem Fall wird "die ganze Seite gesperrt", aber nicht per "noindex", sondern per "500 Serverfehler".

    Code
    # Robots noindex sitemap.xml
    <IfModule mod_headers.c> <FilesMatch "sitemap\.xml$"> Header append X-Robots-Tag "noindex" </FilesMatch> </IfModule>

    3. So geht das:

    Code
    <IfModule mod_headers.c>
    	<FilesMatch "sitemap\.xml$">
    		Header append X-Robots-Tag "noindex"
    	</FilesMatch>
    </IfModule>

    Wenn ein Mensch nicht um dich kämpft, hat er nur gewartet, dass du gehst. ;(

  • @syno
    übersetz mal die Anweisungen in der htaccess, was genau passiert dann da jetzt?

    Frei nach Dieter Nuhr
    Das Internet ist zum Lebensraum der Dauerbeleidigten geworden, die immer einen Grund finden, anderen irgendetwas vorzuwerfen, um sich selbst moralisch zu erhöhen.

  • 1. <IfModule mod_headers.c>
    2. <FilesMatch "sitemap\.xml$">
    3. Header append X-Robots-Tag "noindex"
    4. </FilesMatch>
    5. </IfModule>

    1. If-Modul-Blog Anfang. Alles innerhalb nur beachten, wenn das Modul Headers vorhanden und geladen ist.
    2. FileMatch. Anweisungen innerhalb des Blocks nur beachten, wenn das aktuelle file sitemap.xml ist. Bei allen anderen ignorieren. Ist im Grunde analog zur RewriteRule.
    3. Header hinzufügen (append) und zwar "X-Robots-Tag: noindex". Also ein "Noindex" für dieses File sinden.
    4. File-Block Ende
    5. If-Mudul Ende

    Wenn ein Mensch nicht um dich kämpft, hat er nur gewartet, dass du gehst. ;(

  • genau so hatte ich es verstanden. Aber warum zum Teufel sendet man ein noindex für eine robots.txt, das verstehe ich nicht.

    Frei nach Dieter Nuhr
    Das Internet ist zum Lebensraum der Dauerbeleidigten geworden, die immer einen Grund finden, anderen irgendetwas vorzuwerfen, um sich selbst moralisch zu erhöhen.

  • Google hat im Fieberwahn gelegentliche Aus- und Einfälle der exotischeren Art und indexiert die Biester temporär, was mir allerdings piepenschnurz wäre. Wer sie sucht, findet sie eh und wer sie nicht sucht, findet sie auch nicht.

    Er war Jurist und auch sonst von mäßigem Verstand.

    (Volker Pispers)

  • Irgendwie habe ich eine Denkblockade. Noindex bedeutet für mich nicht indexieren, also nicht auslesen. Warum stelle ich eine robots.txt ins netz, wenn der spider sie nicht lesen soll, die Anweisungen die dort für ihn(den spider) festgehalten sind also nicht beachtet und andererseits aber in den serps anzeigt, dass sie vorhanden ist, lediglich den Inhalt nicht - also wie bei einem noindex in der robots.txt?

    Frei nach Dieter Nuhr
    Das Internet ist zum Lebensraum der Dauerbeleidigten geworden, die immer einen Grund finden, anderen irgendetwas vorzuwerfen, um sich selbst moralisch zu erhöhen.

  • Also meines Wissens werden Seiten, die auf noindex stehen ohne Inhalt in die Serps aufgenommen aber nicht gecrawlt.

    Frei nach Dieter Nuhr
    Das Internet ist zum Lebensraum der Dauerbeleidigten geworden, die immer einen Grund finden, anderen irgendetwas vorzuwerfen, um sich selbst moralisch zu erhöhen.

  • Zitat

    Zwar wird der Content von Seiten, die durch die Datei "robots.txt" blockiert sind, von Google weder gecrawlt noch indexiert, möglicherweise erfolgt jedoch dennoch eine Indexierung der URLs, falls diese auf anderen Webseiten gefunden werden. Folglich können die URL der Seite und eventuell auch andere öffentlich verfügbare Informationen wie z. B. der Ankertext in Links zu der Website oder der Titel des Open Directory Project (*** Link veraltet ***) in den Google-Suchergebnissen angezeigt werden.


    *** Link veraltet ***

    Frei nach Dieter Nuhr
    Das Internet ist zum Lebensraum der Dauerbeleidigten geworden, die immer einen Grund finden, anderen irgendetwas vorzuwerfen, um sich selbst moralisch zu erhöhen.

  • Eine vollständige Blockierung in der robots.txt ist etwas anderes. Sie bedeutet: Finger weg! und zwar komplett. Bezieht sich allerdings ja nur auf diese eine Seite. Für andere Seiten auf anderen Domains kann dieses Verbot ja aber nicht gelten, weshalb es zu diesen vordergründigen Widersprüchlichkeiten kommen kann.

    Bzgl. Noindex - *** Link veraltet ***:

    Zitat

    So a value of "NOINDEX" allows the subsidiary links to be explored,
    even though the page is not indexed.

    Er war Jurist und auch sonst von mäßigem Verstand.

    (Volker Pispers)

  • guppy
    Robots.txt gesperrte Seiten und Noindex-Seiten sind ein himmelweiter Unterschied. Die aus der robots.txt können in den Suchergebnissen erscheinen, die mit noindex ausdrücklich nicht.

    Robots.txt Seiten werden normalerweise komplett ignoriert, aber eben nicht immer. Wenn da z.B. Links drauf zeigen, dann erscheinen die in der Suche, aber eben ohne Inhalt, da nicht gecrawled wird.

    Wenn ein Mensch nicht um dich kämpft, hat er nur gewartet, dass du gehst. ;(