Google - Robots.txt konnte nicht abgerufen werden

Synonym

Sagt mal, geht das nur mir so? In den letzten Monaten häufen sich die Probleme, dass die Robots.txt angeblich nicht angerufen werden kann. Ich sehe keinen Grund, warum das so sein sollte. Eine statische Datei, die über Jahre einfach da ist, geht mal und geht mal nicht? Das im Bild ist nur ein Beispiel, weil eben auch aktuell von heute, aber das Spiel habe ich fast überall....

Im Logfile steht dazu:

66.249.70.196 - - [03/Jan/2024:11:31:44 +0100] "GET /robots.txt HTTP/1.1" 200 5863 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

Wäre mir auch völlig egal, wenn ich just auf der Domain da nicht massive Index-Probleme hätte. Versuche da nun schon seit 8 Wochen eine Seite in den Index zu bekommen, die angeblich auch im Index ist, aber nicht auffindbar. Kann die aber auch melden, wie ich lustig bin, das "letzte Crawling" ändert sich nicht, bleibt beim 30.10.23

Synonym

Das Spiel geht weiter. Eben war der Bot wieder da, sogar drei Stück. Angeblich wieder nicht abrufbar....

Für 11:55 Uhr gibt es von Google gar keinen Zugriff auf dem Server

Das hier hat nun funktioniert, also das, was vorher mal wieder nicht ging:

Das Logfile dazu:

Code

66.249.70.197 - - [03/Jan/2024:12:10:33 +0100] "GET /robots.txt HTTP/1.1" 200 5863 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.70.196 - - [03/Jan/2024:12:10:34 +0100] "GET /robots.txt HTTP/1.1" 200 5863 "-" "Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.6099.129 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.70.198 - - [03/Jan/2024:12:10:34 +0100] "GET /robots.txt HTTP/1.1" 200 5863 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

Synonym

Keiner eine Idee? Scheint jedenfalls nicht nur bei mir zu sein, sondern auch auf anderen Seiten von Dir Alex, z.B.

Wenn ich das bei mir richtig sehe, aber ich weiß nicht, wie weit die Daten da von Google reichen... Mein ältester erfolgreicher Eintrag ist vom 3.12. bis zum 15.12. war alles in Ordnung. Seit dem 15.12. gegen Abend gehen die Fehlermeldungen los und dauern permanent an. Also im Sinne von geht, geht nicht, geht.

Und just seit dem 15.12. habe ich auch extreme Schwankungen in den Serps, wie z.B. hier:

Gleichzeitig sehe ich so gut wie keine Bot-Aktivität mehr. Der Googlebot kommt mal, aber sehr sehr selten. 80% der Zugriffe sind auf die robots.txt. Ads.txt-Bot und Image-Bot sowie der Adsense-Bot hingegen sind normal unterwegs.

Synonym

Und das mit dem Crawling könnte sogar passen, denn Google schreibt dazu selbst:

"Wenn Google eine robots. txt-Datei findet, sie aber nicht abrufen kann, geht Google so vor: In den ersten zwölf Stunden beendet Google das Crawling der Website, versucht aber weiterhin, die robots. txt-Datei abzurufen."

Das hat also fast so den Eindruck hier. Und nachdem der robots.txt-Abruf mehr oder weniger alle paar Stunden fehlerhaft ist, könnte das durchaus sein, dass dann die 12 Stunden ständig neu beginnen.

Das ist z.B. von heute Morgen:

Synonym

Dann tippe ich halt mal alleine für mich hin.... Witzig. Das ist ein Problem, das gravierend ist, wenn es denn wirklich eines ist und keine Fake-Meldung.

Laut Google sind die Fehler allerdings korrekt. Es gibt auch bei denen auf der Seite keine Probleme, das liegt also an den Clients.

Also das hier:

Das hier

oder das hier:

sind angeblich alles Probleme, die der Client verursacht. Und das "nicht verfügbar" kommt nur, wenn der Client einen Status 500, 429, 403 oder 401 sendet. Ein 404/410 wird als "verfügbar" gewertet, steht aber als "404" in der Liste.

Witzig dann, dass das Client-Antworten sein sollen, bei mir in den Logs dazu aber nichts steht. Die Zugriffe haben nie stattgefunden, wie von einer Firewall oder einem anderen vorgeschalteten Dienst gesperrt.

Was sagt der Hoster dazu? Es gibt kein Problem, keine Sperren, keine Firewall oder sonst was, das nur den Zugriff auf die robots.txt blockieren würde.

Fakt ist, ich kann teilweise noch nicht mal Seiten indexieren lassen, weil dort der Fehler auch kommt.

catcat

Bei mir ist es eher so, dass google immer häufiger meint: "Sitemap nicht gefunden".
Oder er schmeißt zuvor indexierte Seiten raus und meint, die wären noch nie indexiert worden.

Synonym

Verstehe ich das richtig? Du hast keine robots.txt Probleme?

Du bist doch auch auf Alex Servern, oder?

Wenn Du keine Probleme hast und bei Alex bist, dann kann man ein standortbedingtes Problem auch ausschließen. Das war der letzte noch mögliche Ansatz.

Meine Domänen haben das Problem alle. Alle Hetzner, aber verschiedene Server. Also am Server selbst liegt es auch nicht. Eine Domain hat das Problem nicht, die ist bei Cloudflare. Von Alex kann ich nur in drei Domänen reinsehen, auch die haben das Problem.

Also jede Seite, auf die ich zugreifen kann in der GSC, hat die Probleme. Daher der Gedanke mit standortbedingt, Vogtland.

Meine Config kann ich ausschließen. Sind zwar verschiedene, aber dennoch von mir. Aldx hat aber eine ganz andere und das Problem eben auch.

catcat

Menno. Jetzt hab ich extra nochmal genau geguckt.
Am 09.01. hatte ich 14 Fehler beim Abruf der robots.txt.
Sonst die letzte Zeit zuvor nix.

Hab jetzt eben nochmal kurz 5-6 andere Sites gecheckt, die auch bei Alex liegen: Da ist alles bestens.

Aber auf jeden Fall ist Alex dran schuld.

Synonym

Danke Dir, also 9.1. und vorher nix. Passt zu dem, was ich hier sehe, auch wenn andere Tage. Ich registriere das hier teilweise seit dem 15.12. oder so, verstärkt nun aber im Jahr 2024.

Da ist am 9.1. auch ein kleiner "Hügel"

Und der hier ist nicht Hetzner, ganz anderer Hoster und anderer Standort.....

catcat

Alter^^ Das sind ja bei Dir keine Hügel, das ist der Himalaya.

Alex07

Also nur zur Klarstellung. Da wird nix gedrosselt oder sonst was.

Ich habe es aber auch, viele andere übrigens bei anderen Hostern auch.

Auch habe ich etwas mit Synonym geschnackt. Google ist natürlich nicht schuld, Google meint das liegt an den Hostern. Wirklich jetzt.

Ich habe ein Script geschrieben... Hust*GPT*

Damit möchte ich verschiedene Sachen testen. Wer Interesse hat, dem kann ich das geben. Das läuft lokal und auch auf jedem Server, an den Feinheiten bin ich dran.

Also wirklich... das man Beweisen muss, das Google scheisse ist... wirklich..

Synonym

Wie ich schon gestern sagte, das Problem dabei ist nicht unbedingt der Fehler selbst. Eventuell ist es auch nur ein Bug in der Anzeige oder sonst was.

Das Hauptproblem ist, dass Google das Crawling einstellt, wenn die robots.txt fehlerhaft ist. Und das eben auch, wenn das nur ein Bug ist und gar nicht fehlerhaft, aber als fehlerhaft protokolliert wird. Das macht Google nicht, wenn es einen 404 oder einen 410 gibt, denn das würde als "gültig" zählen. Bei den hier angeblichen Statuscodes ist es aber ein Fehler und das führt dazu, dass das Crawling gestoppt wird.

Ich habe hier auf Seiten teilweise am Tag bis zu 60 robots.txt-Abrufe im Log stehen, aber nur einen oder gar keinen regulären Bot-Zugriff. Also genau das, was Google in der Hilfe schreibt.

Dann kommt eben auch dazu, dass die robots.txt auch abgerufen oder geprüft wird, wenn die ads.txt für Adsense getestet wird. Auch hier hagelt es mittlerweile im Stundentakt Fehlermeldungen, von wegen ads.txt nicht abrufbar, Umsatzverluste deswegen usw. Aber auch da natürlich. Adsense schreibt ja nur, dass die ads.txt nicht abrufbar war. Sie schreiben aber nicht welcher Tag, welche Uhrzeit oder welche Domain. Und in der Liste der Domänen, immer wenn ich reinsehe, ist alles "gültig". Da steht aber auch nur der letzte Zugriff und kein Protokoll.

Und das Schlimmste ist ja, dass man von Google wegen jedem Scheiß sofort eine Mail bekommt. Da geht ein Scheme nicht, da fehlen wichtige Angaben, da ist was anderes, dort ist ein (berechtigter) 404 usw. Alles belangloses Zeug, das aber sofort benachrichtigt wird. Bei so was wie "Crawling wird beendet, wegen robots.txt-Fehler", kommt keine einzige Nachricht.

Und wie ich schon gestern sagte, Alex. Dieser doofe Spruch, das ist nicht wegen Google, sonst müsste es viel mehr Leute mit dem Problem geben, ist völlig hirnrissig, denn wer bitte schaut schon in die Einstellungen und dann robots.txt-Status oder Host-Status. Da muss man ja erst dreimal was anklicken, bevor man das überhaupt erreicht. Logisch, dass das viele nicht merken oder wissen. Ich hab es auch nur durch Zufall gefunden, weil ich danach suchte, warum meine Seite massiv am 15.12. abgeraucht ist. Und siehe da, da waren dann die robots.txt-Fehler ab dem 15.12. Hätte ich nicht danach gesucht, hätte ich es auch nicht gesehen. So viel also zu "müssten viel mehr sein".

Dazu eben, dass es genau diese Fehlermeldung die Google da ausgibt, in der Hilfe der möglichen Fehlermeldungen gar nicht gibt. Dann hieß es ja, das wäre angeblich nur ein Übersetzungsfehler, der nur in Deutsch auftritt. Komisch, denn wenn ich meinen Account auf Englisch umstelle, dann steht das "Not fetched - N/A" und diese Fehlermeldung gibt es in der Hilfe auch nicht.

Dieses "nicht verfügbar" in Deutsch heißt für mich eigentlich so viel wie, die Datei ist nicht verfügbar. Aber das N/A hat ja eigentlich eine andere Bedeutung, nämlich dass nicht die Datei nicht verfügbar ist, sondern die Fehlermeldung nicht verfügbar ist. Zu deutsch gesagt, Google weiß nicht, warum das "not fetched", der Grund dafür ist "N/A". Wir würden schreiben "nicht zutreffend".

Ein gutes Beispiel dafür ist nämlich auch, dass ich ja wirklich einen Ausfall hatte über 24 Stunden. da war ein Server aus. Und auch da protokollierte Google die gleiche Fehlermeldung. So was wie "timeout" oder "server nicht erreichbar", gibt es bei Google in den Gründen gar nicht, da gibt es immer nur "200, 404, 410" für "alles in Ordnung" oder eben "500, 429, 403, 401" für "fehlerhaft". Und das ist ganz einfach, ein Server, der aus ist, kann nichts senden. Es wird aber dennoch ein angeblich fehlerhafter Statuscode als Grund genannt. Und nun sind wir wieder beim aktuellen Zeitraum. Die Zugriffe kommen hier gar nicht an. Also auch da möglich, dass Google schlicht gar nicht auf die robots.txt zugreift, warum auch immer, also wie wenn der Server aus wäre oder die Verbindung unterbrochen und dann eben dennoch behauptet "500, 429, 403, 401".

catcat

Ich hätte auch nie den Status der robots.txt überprüft, wenn Du das nicht erwähnt hättest.
Wozu auch. Jeder Idiotenbot kann eine TXT-Datei in der root finden und lesen, wenn er weiß, wie sie heißt.

Und rein zufällig habe ich auch rausgefunden, dass google verzweifelt nach einer gewissen ads.txt sucht und nicht findet. Könnte daran liegen, dass ich keine habe. Was google aber auch wissen könnte, weil diese Property ja weder mit AdSense, noch mit AdWords verknüpft ist.