Webmastertools -> durch robots.txt gesperrt bzw. Soft 404

  • Ich glaube, ich hatte es schon mal vor über einem Jahr oder so, wenn, dann sorry, dann nochmal, denn es wird immer mehr......


    In der neuen Google Search Console bekomme ich für diverse Domänen im Bereich Abdeckung immer wieder Fehler angezeigt, also Fehler im Sinne von "ausgeschlossen".


    Sehe ich die mir an, z.B. aktuell bei der Domain, dann sind das 37. Wobei weitere 38 "gültig" sind. Also fast 50% sind "ausgeschlossen". Als Grund für das "ausgeschlossen" steht in der Liste erst mal "Soft 404".


    Eigentlich dachte ich immer zu wissen, was ein Soft 404 ist, aber wohl doch nicht. Das sind alles Bilder von Geranien. Einmalig und erreichbar. Aber Google meldet Soft 404. Der Witz an der Sache. Direkt bei der Meldung der einzelnen ULRs steht "Zuletzt gecrawled" und das ist immer ein Datum aus Mitte 2018.


    Also rufe ich die URL auf und sage "URL prüfen". Dann kommt das hier:


    [ATTACH=JSON]{"data-align":"none","data-size":"full","title":"google-soft-404.jpg","data-attachmentid":123874}[/ATTACH]


    Also wieder ein Soft 404 und die Info, dass die Daten von Mitte 2018 sind. Dann gehe ich oben rechts auf "Indexierung beantragen". Mache ich das, dann kommt das hier:


    [ATTACH=JSON]{"data-align":"none","data-size":"full","title":"google-indexierung-beantragen.jpg","data-attachmentid":123875}[/ATTACH]



    Ok, ein Indexierungsproblem..... Also klicke ich da auf "Live-Test anzeigen". Der gibt mir dann das als Ergebnis:


    [ATTACH=JSON]{"data-align":"none","data-size":"full","title":"google-live-test.jpg","data-attachmentid":123876}[/ATTACH]


    Also wieder was neues. Einen robots.txt-Tester gibt es in der neuen GSC nicht, nur in der alten. Die sagt mir zu der URL:


    [ATTACH=JSON]{"data-align":"none","data-size":"full","title":"google-robots-txt-test.jpg","data-attachmentid":123877}[/ATTACH]


    Man beachte rechts unten das "Zugelassen".


    So, und nun frage ich mich echt, was dieses doofe verfluchte Google von mir will.


    Hat einer eine Idee? Das geht schon über ein Jahr so und betrifft effektiv mehr als 500 Ziele.

  • Ach so, bevor die Fragen aufkommen. Wie Ihr wisst zweifel ich ja erst mal selbst an mir. Also an der Technik, der Umsetzung, allem. Aber habe nix gefunden. Ich biege durchaus robots.txt für CDN-Domänen um und mache sonstige nicht ganz "normale" Sachen, aber das ist hier alles nicht der Fall, 1000-fach geprüft (hätte ja sein können, dass da was war und ich es bei den ganzen Server-Umzügen vergessen habe, aber nein). Da wird kein robots.txt dynamisch ausgeliefert, da gibt es keine Fallunterscheidung für den Host oder Referrer, da gibt es kein CNAME oder falsche IPv4- bzw. IPv6 Einträge. Auch keine Angaben per PHP- oder Apache-Header. Da gibt es immer nur einfach die Webseite, die statische robots.txt und eben HTML.