Sitemap.xml und robots.txt mit .htaccess aus dem Google Index verbannen

Hecht

# Robots noindex sitemap.xml <IfModule mod_headers.c> <FilesMatch "sitemap\.xml$"> Header append X-Robots-Tag "noindex" </FilesMatch> </IfModule>

# Robots noindex robots.txt <IfModule mod_headers.c> <FilesMatch "robots\.txt$"> Header append X-Robots-Tag "noindex" </FilesMatch> </IfModule>

Der Test sollte mit web-sniffer.net so aussehen.

X-Robots-tag: noindex

Jedoch funktioniert es nicht, es wird damit die ganze Seite blockiert.
Hat jemand Erfahrung damit?

r-ALF

was willst du damit bezwecken?

Hecht

Ist hier beschrieben *** Link veraltet ***
Nur das es so nicht funktioniert, sondern die ganze Seite sperrt :-).
Danke Alf!

r-ALF

Zitat von Hecht;29853

Ist hier beschrieben *** Link veraltet ***

und was bringt dir das?
kümmer dich um das Ranking deiner anderen für dich wichtigen Seiten!

guppy

Das Modul mod_headers ist geladen?

Ich denke das ist die Baustelle von Syno oder Ralf, aber nur es wird doch damit nur ein noindex erreicht, die url bleibt in den serps.
Und ein noindex für die robots.txt bzw sitemap erscheint mir sinnfrei, dann lösch die Dateien einfach, wenn es z.B. um eine nichtaktuelle sitmap geht.
Wenn, wie in den Beitrag beschrieben, die sitmap nicht aktualisiert wird, auch nach anpingen in den wmt nicht, dann denke ich - auweia ...

Margin

In den WMT kann man die Sitemap nicht nur aktualisieren, sondern auch vollständig löschen und, sofern gewünscht, eine neue einreichen. Wird sie jedoch gelöscht, sollte sie auch serverseitig gelöscht werden.

Ferner kann man auch nicht erwünschte Files in den WMT aus den Serps löschen. Ist vielleicht der einfachere Weg, statt durch die Brust ins Auge

guppy

Zitat von Margin;29863

In den WMT kann man die Sitemap nicht nur aktualisieren, sondern auch vollständig löschen und, sofern gewünscht, eine neue einreichen. Wird sie jedoch gelöscht, sollte sie auch serverseitig gelöscht werden.

Die Frau Preuße schreibt ja:

Zitat

Sehr erstaunlich finde ich dabei, dass sich Google bei einem meiner Projekte schon seit mehreren Wochen weigert, mit der täglich aktualisierten sitemap.xml zu arbeiten und stattdessen mit der von ihr indexierten Stand April 2011 arbeitet

deswegen mein auweia - ich würde anfangen darüber nachzudenken, welcher Satellit befördert wird.

Margin

Deshalb ja, einmal in den WMT komplett löschen, halbe Stunde warten, neue einreichen. Vorher aber unbedingt mal die neue auf irgendwelche Typos, falsche Sonderzeichen usw. hin untersuchen. Da kann nämlich auch der Hund begraben sein, dass die neue nicht vollständig lesbar ist.

Einfach mal hier durchjagen: *** Link veraltet ***

(Ähnliches hatte ich auch schon, da war mir einfach irgendwo ein Ä oder Ö reingerutscht und tschüssikovski ...)

*edit*
Welches Aktualisierungsdatum steht in den WMT?
Ist die korrekte Sitemap (Dateiname) & der korrekte Typ eingetragen?

Synonym

Hecht
Also das ganze sollte funktionieren, nutze ich so schon über Jahre.

Allerdings bin ich mir nun nicht sicher, was genau Du mit "sperrt die ganze Seite" meinst und / oder ob der Code exakt so eingebaut ist, wie er oben im Post ist....

Grund:
1. So wie oben im Post ist der Code nicht ausführbar, da alles in einer Zeile steht und davor ein # ist. Die Anweisung wird also ignoriert.

Code

# Robots noindex sitemap.xml <IfModule mod_headers.c> <FilesMatch "sitemap\.xml$"> Header append X-Robots-Tag "noindex" </FilesMatch> </IfModule>

2. Ist die Überschrift eine Zeile weiter oben und der Rest in einer Zeile darunter, dann geht es dennoch nicht, denn die Syntax ist dann falsch. Diese Bedingungen <xx> </xx> dürfen nicht in einer Zeile stehen. In diesem Fall wird "die ganze Seite gesperrt", aber nicht per "noindex", sondern per "500 Serverfehler".

Code

# Robots noindex sitemap.xml
<IfModule mod_headers.c> <FilesMatch "sitemap\.xml$"> Header append X-Robots-Tag "noindex" </FilesMatch> </IfModule>

3. So geht das:

Code

<IfModule mod_headers.c>
	<FilesMatch "sitemap\.xml$">
		Header append X-Robots-Tag "noindex"
	</FilesMatch>
</IfModule>

guppy

@syno
übersetz mal die Anweisungen in der htaccess, was genau passiert dann da jetzt?

Synonym

1. <IfModule mod_headers.c>
2. <FilesMatch "sitemap\.xml$">
3. Header append X-Robots-Tag "noindex"
4. </FilesMatch>
5. </IfModule>

1. If-Modul-Blog Anfang. Alles innerhalb nur beachten, wenn das Modul Headers vorhanden und geladen ist.
2. FileMatch. Anweisungen innerhalb des Blocks nur beachten, wenn das aktuelle file sitemap.xml ist. Bei allen anderen ignorieren. Ist im Grunde analog zur RewriteRule.
3. Header hinzufügen (append) und zwar "X-Robots-Tag: noindex". Also ein "Noindex" für dieses File sinden.
4. File-Block Ende
5. If-Mudul Ende

guppy

genau so hatte ich es verstanden. Aber warum zum Teufel sendet man ein noindex für eine robots.txt, das verstehe ich nicht.

Margin

Google hat im Fieberwahn gelegentliche Aus- und Einfälle der exotischeren Art und indexiert die Biester temporär, was mir allerdings piepenschnurz wäre. Wer sie sucht, findet sie eh und wer sie nicht sucht, findet sie auch nicht.

guppy

Irgendwie habe ich eine Denkblockade. Noindex bedeutet für mich nicht indexieren, also nicht auslesen. Warum stelle ich eine robots.txt ins netz, wenn der spider sie nicht lesen soll, die Anweisungen die dort für ihn(den spider) festgehalten sind also nicht beachtet und andererseits aber in den serps anzeigt, dass sie vorhanden ist, lediglich den Inhalt nicht - also wie bei einem noindex in der robots.txt?

Margin

Denkblockade: Noindex = nicht [COLOR="#B22222"]indexieren[/COLOR] NICHT "nicht auslesen"!
Lesen ja - indexieren nein.

guppy

Also meines Wissens werden Seiten, die auf noindex stehen ohne Inhalt in die Serps aufgenommen aber nicht gecrawlt.

Margin

Genau umgekehrt

guppy

Zitat

Zwar wird der Content von Seiten, die durch die Datei "robots.txt" blockiert sind, von Google weder gecrawlt noch indexiert, möglicherweise erfolgt jedoch dennoch eine Indexierung der URLs, falls diese auf anderen Webseiten gefunden werden. Folglich können die URL der Seite und eventuell auch andere öffentlich verfügbare Informationen wie z. B. der Ankertext in Links zu der Website oder der Titel des Open Directory Project (*** Link veraltet ***) in den Google-Suchergebnissen angezeigt werden.

*** Link veraltet ***

Margin

Eine vollständige Blockierung in der robots.txt ist etwas anderes. Sie bedeutet: Finger weg! und zwar komplett. Bezieht sich allerdings ja nur auf diese eine Seite. Für andere Seiten auf anderen Domains kann dieses Verbot ja aber nicht gelten, weshalb es zu diesen vordergründigen Widersprüchlichkeiten kommen kann.

Bzgl. Noindex - *** Link veraltet ***:

Zitat

So a value of "NOINDEX" allows the subsidiary links to be explored,
even though the page is not indexed.

Synonym

guppy
Robots.txt gesperrte Seiten und Noindex-Seiten sind ein himmelweiter Unterschied. Die aus der robots.txt können in den Suchergebnissen erscheinen, die mit noindex ausdrücklich nicht.

Robots.txt Seiten werden normalerweise komplett ignoriert, aber eben nicht immer. Wenn da z.B. Links drauf zeigen, dann erscheinen die in der Suche, aber eben ohne Inhalt, da nicht gecrawled wird.