Seite vom Index ausgeschlossen, aber dennoch unter Google gefunden!

Andimau

Hallo,

ich habe in der Robotx.txt einige Seiten aus dem Suche Indexierung ausgeschlossen. (Ich nutze hier ein Wordpress Plugin)

Allerdings nutze ich auch Rank Math.

In meiner Robots.txt:

Disallow: https://www.meindomain/impressum

Meine Frage: Warum indexiert Google trotzdem? (Ich habe dazu die Suchfunktion unter Google verwendet: site:meineodomain.de

Kann ich die Seite auch irgendwie nachträglich aus dem Index löschen?

Vielen Dank für euer Feedback

Andi

Alex07

Hallo Andimau,

du kannst einfach in der Google Search Console einzelne Unterseiten entfernen.

Was nutzt du denn für ein Wordpress Plugin? Du brauchst einfach die robots.txt, welches eine Textdatei ist, ändern.

Auch kann ich das nicht nachvollziehen. Schick mal die Webseite mir per PN, dann schaue ich mir das an.

Gruss

Alex

Synonym

Na, hier kommen mehrere Sachen zusammen.

Die Indexierung einer Seite, die durch die robots.txt ausgeschlossen ist, ist möglich! Die Seite ist schließlich sichtbar. Ausgelöst wird das Ganze in der Regel durch externe Links.

Google-Doku: https://support.google.com/webmasters/answer/7489871?hl=de

Ausschnitt:

Zitat

Sie haben eine Regel in der robots.txt-Datei* Ihrer Website, die Google daran hindert, die Seite zu lesen. Auf diese Weise erzeugen wir eine Beschreibung in den Suchergebnissen. Dies verhindert jedoch nicht, dass Google die Seite in den Suchergebnissen anzeigt. Allerdings wird aufgrund der robots.txt-Regel keine Beschreibung angezeigt, wenn die Seite in der Google Suche erscheint.

Wenn Du was ausschließen willst, fast 100% sicher, dann braucht es ein "robots = noindex".

Ich habe selbst zig Seiten im Index, die ausgeschlossen sind. Naja, ausgeschlossen per robots.txt eben, fast alles Seiten aus einem per Passwort geschützten Kundenbereich. Die Kunden verlinken aber die Unterseiten direkt. Folge: Google greift drauf zu, hat aber die robots.txt und bildet kein Snippet, aber indexiert wird es aufgrund der externen Links dennoch. Ein "noindex" hilft da sogar noch nicht einmal, denn Google kommt in den geschützten Bereich ja nicht rein.

Und "mehrere Sachen", weil Dein Beispiel oben "seltsam" ist. Anweisungen in der robots.txt sind reine Pfad-Angaben, keine Domänen. Also in dem Fall, wenn schon:

User-Agent: *

Disallow: /impressum

Aber eben auch das mit dem Punkt von oben drüber.

Indexierung löschen: JAIN.... Löschen ja, aber nur temporär. So lange dann keine entsprechenden Signale kommen, wie noindex oder Fehler 404, kann (und wird) Google die wieder aufnehmen.

Doku: https://support.google.com/webmasters/ans…6#block_content

Alex07

Zitat von Synonym

Anweisungen in der robots.txt sind reine Pfad-Angaben, keine Domänen.

Ui, das hatte ich auch übersehen...

Synonym

Du musst also bei der "impressum" für ein "robots noindex" sorgen und GLEICHZEITIG, die Indexierung per robots.txt ZULASSEN.

Wenn Du ein noindex hast, aber auch eine Sperre in der Robots.txt, dann indexiert google die Seite evtl. dennoch, denn aufgrund der Sperre sieht Google das Noindex ja gar nicht.

"robots.txt" ist kein "indexiere nicht", sondern nur ein "greife nicht drauf zu". Kennen tut Google die URL also dennoch, nur den Inhalt nicht. Bei "noindex" hingegen darf er den Inhalt lesen, bekommt aber gesagt "vergiss es gleich wieder".

Alex07

Zitat von Synonym

"robots.txt" ist kein "indexiere nicht", sondern nur ein "greife nicht drauf zu". Kennen tut Google die URL also dennoch, nur den Inhalt nicht. Bei "noindex" hingegen darf er den Inhalt lesen, bekommt aber gesagt "vergiss es gleich wieder".

So macht man es, wenn schon was im Index ist. Wenn ich bestimmte Ordner, zB Adminverwaltung sperren will, darf ich das nicht verlinken und vorsorgehalber einen Eintrag in der robots.txt machen.

Ich schau mir mal kurz die Seite an...

Alex07

und so schaut die robots.txt aus

Code

User-agent: *
Disallow: /

Also net gut gemacht.

Ich würde das was im Impressum steht drin lassen und das Disallow / rausnehmen. Dann sollte es hinhauen

Synonym

"Darf es nicht verlinken" liegt aber oft nicht in der eigenen Verantwortung. Wie gesagt, bei mir sind URLs im Index, weil Kunden die verlinken. Das können auch andere Sumas oder Bots sein, die die Robots.txt ignorieren.

Eine robots.txt ist nur ein Hinweis, ein Vorschlag, den Inhalt einer Datei nicht zu lesen. Das ist keine Pflichtangabe, die URL nicht dennoch zu indexieren. Zudem rufen die nicht mit jedem Abruf auch die robots.txt ab, sondern die URL direkt. Nur als Anmerkung. Bing ignoriert auch "rel nofollow".

Synonym

Also wie ich oben schrieb. Das darf in der robots.txt nicht gesperrt sein, denn so wie es aktuell ist, kennt Google die URL /impressum, aber den Inhalt nicht. Und wenn es den Inhalt nicht kennt, kennt es auch das "Noindex" nicht.

Die robots.txt ist wirklich so? Also die ganze Domain gesperrt?

Alex07

Zitat von Synonym

Die robots.txt ist wirklich so? Also die ganze Domain gesperrt?

korrekt. Leider ja

Deswegen schrieb ich ja schon das er das herausnehmen soll.

Frank-L

Bei einer robots.txt Ausschließung kommen die URLs durch die Links in den Index und haben quasi den Linktext als Titel. Nur der Quelltext des Ordners/der Datei wird ausgeschlossen, nicht die Datei (Container) selbst. Nur ergänzend, der Rest war ja gesagt.

Andimau

Hallo,

sehr merkwürdig. Irgendwie hat Rank Math die Robots.txt nicht richtig erzeugt.

Jetzt aber ist diese korrekt eingebunden. Hoffe ich:)

Danke übrigens für euer super Feedback!

Alex07

ohh. nee. ist schlimmer geworden.

das stimmt von vorne bis hinten nicht.

ein

Code

Disallow: Allow: /*

gibt es meiner Meinung nach nicht.

Auch andere Sachen, die stimmen einfach so nicht, bzw sind einfach falsch.

Ich würde dieses SEO Tool runter schmeissen und zB Yoast installieren. Ich kenne mich mit WP aber nicht so gut aus, ich meine das kann das aber besser als dieses "Rank Math". Davon übrigens noch nie gehört vorher.

Kann sein das das Mist ist, kann aber auch sein, dass du das nicht richtig bedienst das Tool.

Synonym

Ich finde es immer schwierig, nur Teile eines Codes zu kennen. Einen robots.txt Anweisung Disallow/Allow ohne einen entsprechenden User-Agent dazu gibt es nicht. Die sind unwiederbringlich aneinander geknüpft.

Ein "Disallow: Allow: /*", also alles in einer Zeile, gibt es nicht. Syntaxfehler. Wenn schon, wird hier versucht, den Ordner (die Datei) "Allow" zu sperren.

Die Anweisung "/*" ist auch nicht "Standard". Das funktioniert bei Google, aber z.B. nicht oder nur teilweise bei Bing. Ebenso eine Anweisung mit "$". $ und * sind "Standards", die Google definiert hat, die aber nicht zum eigentlichen robots.txt Standard gehören. Das ist mehr oder weniger ein Versuch, der robots.txt "Regex" beizubringen.

So, wie gesagt, immer nur eine Zeile Code, ohne den Rest zu kennen, ist unbrauchbar. Zumal man nicht erkennt, ob die wirklich so ist, oder das Forum die Formatierung verschluckt hat.

Ein

User-agent: *

Disallow:

User-agent: *

Allow: /*

oder auch

User-agent: *

Disallow:

Allow: /*

Würde funktionieren, also nur so, wie es da steht und den entsprechenden Leerzeilen / Zeilenwechseln. Aber nur unter der Prämisse, dass jeweils die letzte Zeile ein von Google erfundener Standard ist.

Macht aber so auch nicht viel Sinn. Erst NICHTS verbieten, dann ALLES erlauben. Per default, also eine leere robots.txt, ist ja bereits, "ALLES erlaubt".

Was nicht verboten werden muss, sollte nicht in der Datei stehen. Was nicht explizit erlaubt werden muss, weil vielleicht ein Teilbereich eines anderen Ausschlusses, sollte auch nicht drinnen stehen. Jede Zeile ist eine mögliche Fehlerquelle.

Eine typische, minimale Wordpress-robots.txt schaut in etwa so aus:

Code

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Also jeder Bot "User-agent".... Verboten wird der Zugriff auf den "Admin-Ordner". Erlaubt aber dann der Zugriff auf eine bestimmte Datei im zuvor gesperrten "Admin-Ordner".

Andimau

Ok, ich sehe, ich muss ich nochmals dranmachen an die Robots.txt

Ich übrigens das Muster auf Strato gesehen bzw. kopiert. Und ja es stimmt, da gibts einige Fehler wie oben von Euch schon erwähnt. Oh mann.

Alle Infos zu WordPress und der Datei robots.txt | STRATO

Synonym

Oje... Das ist mal wieder typisch so eine Anleitung, die lieblos gemacht ist, Hauptsache, sie ist gemacht. 0815-Gerede, keine wirklichen Hinweise auf mögliche Probleme und das bisschen, was da auf 3 Seiten aufgebläht steht, ist dann auch noch falsch. Kenne da noch einen, der das so macht....

Das erste Beispiel bei Strato ist noch richtig, das zweite falsch. Schaut aus, wie falsch reinkopiert oder eben falsch formatiert. Und, wie gesagt, teils sinnlos ist es auch. Wären die sinnlosen Zeilen (ersten vier) da nicht enthalten, dann würde es sogar stimmen. Wie oben geschrieben, jede unnötige Zeile mehr ist eine mögliche Fehlerquelle und siehe da, das beste Beispiel ever

Besser wäre auch, bei den einzelnen Blöcken eine Leerzeile zu machen. Also

user-agent: irgendwas

Disallow: /bla

Disallow: /blub

user-agent: einanderer

Disallow: /katze

Disallow: /maus

Ist kein "Muss", aber alte Syntax (die mache ausschließlich können) und vor allem liest es sich auch besser.

Oben habe ich die "*" in den Anweisungen erwähnt. Dazu noch mal was. Das funktioniert bei Google und bei Bing, ist aber kein Standard. Also es funktioniert so, wie dort verwendet, z.B. "Disallow: */trackback/". Das verbietet also alles, was irgendwie "/trackback/" angehängt hat. Angehängt, nicht absolutes Ende, denn nach dem "/trackback/" könnte es ja mit "irgendwas/trackback/blablub" weitergehen.

Google kann aber auch so was da (war bei mir genutzt):

Disallow: /geranien-shop/artikel-*

Also alles im Order sperren, das "artikel-" am Anfang hat. Das geht bei Google, Bing versteht das aber nicht. Bing kann es nur, wenn der Stern vorne kommt bzw. davor und/oder danach ein Slash "/". Wie andere Sumas das machen, ist noch mal eine andere Frage. Wie gesagt, das ist kein offizieller Standard.

Alex07

Je mehr Regeln, umso grösser das Fehlerrisiko.

Nimm einfach nur das hier

Code

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Das ist absolut ausreichend für eine Wordpress Seite. Mehr braucht es nicht. Das Impressum stellste einfach auf noindex um. Das ist alles.

Ich weiss nicht ob du dir die Tragweite bewusst bist / warst was du da angestellt hast. Du hattest deine komplette Seite gesperrt für Bots.

Hat dir das WP Tool das so vorgeschlagen?

Das oben genannte Beispiel ist wohl die WordPress robots.txt Muster.

catcat

Also, wenn es in dem Fall tatsächlich um das Impressum geht, dann wundert mich das nicht, weshalb google die trotzdem indexiert:
Schließlich muss diese Seite von jeder anderen Seite dieser Domaine verlinkt sein.
Ausserdem gibt es absolut keinen Grund, seine Impressumsseite zu "verstecken".

Frank-L

Zitat von catcat

Ausserdem gibt es absolut keinen Grund, seine Impressumsseite zu "verstecken".

Bei allen nicht unmittelbaren Geschäftsseiten hab ich das Ding auch auf noindex gesetzt, der Spam ist massiv zurückgegangen. Die meisten Spamspider hangeln sich nicht mehr von Link zu Link, sondern nutzen Suchergebnisse, um Daten zu sammeln.
Genauso DSGVO und Co auch alles auf Noindex. Die Anwaltskanzleien suchen ja normalerweise nicht gezielt nach dir, sondern gezielt nach Snippetfehlern. Von daher hat das schon seine Berechtigung. Genauso bei meiner Abmahnung damals, die Type hat ja sämtliche E-Mailadressen angeschrieben, um mir Stress zu machen. Das geht heute nicht mehr so einfach. Bildchen im Impressum ist ja genauso Abmahnbar, da lieber noindex.

Seite vom Index ausgeschlossen, aber dennoch unter Google gefunden!

Andimau 1. April 2022 um 16:03

Benutzer online in diesem Thema