Wie ich schon gestern sagte, das Problem dabei ist nicht unbedingt der Fehler selbst. Eventuell ist es auch nur ein Bug in der Anzeige oder sonst was.
Das Hauptproblem ist, dass Google das Crawling einstellt, wenn die robots.txt fehlerhaft ist. Und das eben auch, wenn das nur ein Bug ist und gar nicht fehlerhaft, aber als fehlerhaft protokolliert wird. Das macht Google nicht, wenn es einen 404 oder einen 410 gibt, denn das würde als "gültig" zählen. Bei den hier angeblichen Statuscodes ist es aber ein Fehler und das führt dazu, dass das Crawling gestoppt wird.
Ich habe hier auf Seiten teilweise am Tag bis zu 60 robots.txt-Abrufe im Log stehen, aber nur einen oder gar keinen regulären Bot-Zugriff. Also genau das, was Google in der Hilfe schreibt.
Dann kommt eben auch dazu, dass die robots.txt auch abgerufen oder geprüft wird, wenn die ads.txt für Adsense getestet wird. Auch hier hagelt es mittlerweile im Stundentakt Fehlermeldungen, von wegen ads.txt nicht abrufbar, Umsatzverluste deswegen usw. Aber auch da natürlich. Adsense schreibt ja nur, dass die ads.txt nicht abrufbar war. Sie schreiben aber nicht welcher Tag, welche Uhrzeit oder welche Domain. Und in der Liste der Domänen, immer wenn ich reinsehe, ist alles "gültig". Da steht aber auch nur der letzte Zugriff und kein Protokoll.
Und das Schlimmste ist ja, dass man von Google wegen jedem Scheiß sofort eine Mail bekommt. Da geht ein Scheme nicht, da fehlen wichtige Angaben, da ist was anderes, dort ist ein (berechtigter) 404 usw. Alles belangloses Zeug, das aber sofort benachrichtigt wird. Bei so was wie "Crawling wird beendet, wegen robots.txt-Fehler", kommt keine einzige Nachricht.
Und wie ich schon gestern sagte, Alex. Dieser doofe Spruch, das ist nicht wegen Google, sonst müsste es viel mehr Leute mit dem Problem geben, ist völlig hirnrissig, denn wer bitte schaut schon in die Einstellungen und dann robots.txt-Status oder Host-Status. Da muss man ja erst dreimal was anklicken, bevor man das überhaupt erreicht. Logisch, dass das viele nicht merken oder wissen. Ich hab es auch nur durch Zufall gefunden, weil ich danach suchte, warum meine Seite massiv am 15.12. abgeraucht ist. Und siehe da, da waren dann die robots.txt-Fehler ab dem 15.12. Hätte ich nicht danach gesucht, hätte ich es auch nicht gesehen. So viel also zu "müssten viel mehr sein".
Dazu eben, dass es genau diese Fehlermeldung die Google da ausgibt, in der Hilfe der möglichen Fehlermeldungen gar nicht gibt. Dann hieß es ja, das wäre angeblich nur ein Übersetzungsfehler, der nur in Deutsch auftritt. Komisch, denn wenn ich meinen Account auf Englisch umstelle, dann steht das "Not fetched - N/A" und diese Fehlermeldung gibt es in der Hilfe auch nicht.
Dieses "nicht verfügbar" in Deutsch heißt für mich eigentlich so viel wie, die Datei ist nicht verfügbar. Aber das N/A hat ja eigentlich eine andere Bedeutung, nämlich dass nicht die Datei nicht verfügbar ist, sondern die Fehlermeldung nicht verfügbar ist. Zu deutsch gesagt, Google weiß nicht, warum das "not fetched", der Grund dafür ist "N/A". Wir würden schreiben "nicht zutreffend".
Ein gutes Beispiel dafür ist nämlich auch, dass ich ja wirklich einen Ausfall hatte über 24 Stunden. da war ein Server aus. Und auch da protokollierte Google die gleiche Fehlermeldung. So was wie "timeout" oder "server nicht erreichbar", gibt es bei Google in den Gründen gar nicht, da gibt es immer nur "200, 404, 410" für "alles in Ordnung" oder eben "500, 429, 403, 401" für "fehlerhaft". Und das ist ganz einfach, ein Server, der aus ist, kann nichts senden. Es wird aber dennoch ein angeblich fehlerhafter Statuscode als Grund genannt. Und nun sind wir wieder beim aktuellen Zeitraum. Die Zugriffe kommen hier gar nicht an. Also auch da möglich, dass Google schlicht gar nicht auf die robots.txt zugreift, warum auch immer, also wie wenn der Server aus wäre oder die Verbindung unterbrochen und dann eben dennoch behauptet "500, 429, 403, 401".