Google - Robots.txt konnte nicht abgerufen werden

  • Sagt mal, geht das nur mir so? In den letzten Monaten häufen sich die Probleme, dass die Robots.txt angeblich nicht angerufen werden kann. Ich sehe keinen Grund, warum das so sein sollte. Eine statische Datei, die über Jahre einfach da ist, geht mal und geht mal nicht? Das im Bild ist nur ein Beispiel, weil eben auch aktuell von heute, aber das Spiel habe ich fast überall....


    Im Logfile steht dazu:

    66.249.70.196 - - [03/Jan/2024:11:31:44 +0100] "GET /robots.txt HTTP/1.1" 200 5863 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

    Wäre mir auch völlig egal, wenn ich just auf der Domain da nicht massive Index-Probleme hätte. Versuche da nun schon seit 8 Wochen eine Seite in den Index zu bekommen, die angeblich auch im Index ist, aber nicht auffindbar. Kann die aber auch melden, wie ich lustig bin, das "letzte Crawling" ändert sich nicht, bleibt beim 30.10.23

    Wenn ein Mensch nicht um dich kämpft, hat er nur gewartet, dass du gehst. ;(

  • Das Spiel geht weiter. Eben war der Bot wieder da, sogar drei Stück. Angeblich wieder nicht abrufbar....


    Für 11:55 Uhr gibt es von Google gar keinen Zugriff auf dem Server


    Das hier hat nun funktioniert, also das, was vorher mal wieder nicht ging:

    Das Logfile dazu:

    Code
    66.249.70.197 - - [03/Jan/2024:12:10:33 +0100] "GET /robots.txt HTTP/1.1" 200 5863 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
    66.249.70.196 - - [03/Jan/2024:12:10:34 +0100] "GET /robots.txt HTTP/1.1" 200 5863 "-" "Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.6099.129 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
    66.249.70.198 - - [03/Jan/2024:12:10:34 +0100] "GET /robots.txt HTTP/1.1" 200 5863 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

    Wenn ein Mensch nicht um dich kämpft, hat er nur gewartet, dass du gehst. ;(

  • Keiner eine Idee? Scheint jedenfalls nicht nur bei mir zu sein, sondern auch auf anderen Seiten von Dir Alex, z.B.


    Wenn ich das bei mir richtig sehe, aber ich weiß nicht, wie weit die Daten da von Google reichen... Mein ältester erfolgreicher Eintrag ist vom 3.12. bis zum 15.12. war alles in Ordnung. Seit dem 15.12. gegen Abend gehen die Fehlermeldungen los und dauern permanent an. Also im Sinne von geht, geht nicht, geht.

    Und just seit dem 15.12. habe ich auch extreme Schwankungen in den Serps, wie z.B. hier:





    Gleichzeitig sehe ich so gut wie keine Bot-Aktivität mehr. Der Googlebot kommt mal, aber sehr sehr selten. 80% der Zugriffe sind auf die robots.txt. Ads.txt-Bot und Image-Bot sowie der Adsense-Bot hingegen sind normal unterwegs.

    Wenn ein Mensch nicht um dich kämpft, hat er nur gewartet, dass du gehst. ;(

  • Und das mit dem Crawling könnte sogar passen, denn Google schreibt dazu selbst:

    "Wenn Google eine robots. txt-Datei findet, sie aber nicht abrufen kann, geht Google so vor: In den ersten zwölf Stunden beendet Google das Crawling der Website, versucht aber weiterhin, die robots. txt-Datei abzurufen."

    Das hat also fast so den Eindruck hier. Und nachdem der robots.txt-Abruf mehr oder weniger alle paar Stunden fehlerhaft ist, könnte das durchaus sein, dass dann die 12 Stunden ständig neu beginnen.

    Das ist z.B. von heute Morgen:

    Wenn ein Mensch nicht um dich kämpft, hat er nur gewartet, dass du gehst. ;(

  • Dann tippe ich halt mal alleine für mich hin.... Witzig. Das ist ein Problem, das gravierend ist, wenn es denn wirklich eines ist und keine Fake-Meldung.

    Laut Google sind die Fehler allerdings korrekt. Es gibt auch bei denen auf der Seite keine Probleme, das liegt also an den Clients.

    Also das hier:


    Das hier


    oder das hier:


    sind angeblich alles Probleme, die der Client verursacht. Und das "nicht verfügbar" kommt nur, wenn der Client einen Status 500, 429, 403 oder 401 sendet. Ein 404/410 wird als "verfügbar" gewertet, steht aber als "404" in der Liste.

    Witzig dann, dass das Client-Antworten sein sollen, bei mir in den Logs dazu aber nichts steht. Die Zugriffe haben nie stattgefunden, wie von einer Firewall oder einem anderen vorgeschalteten Dienst gesperrt.

    Was sagt der Hoster dazu? Es gibt kein Problem, keine Sperren, keine Firewall oder sonst was, das nur den Zugriff auf die robots.txt blockieren würde.

    Fakt ist, ich kann teilweise noch nicht mal Seiten indexieren lassen, weil dort der Fehler auch kommt.

    Wenn ein Mensch nicht um dich kämpft, hat er nur gewartet, dass du gehst. ;(

  • Bei mir ist es eher so, dass google immer häufiger meint: "Sitemap nicht gefunden".
    Oder er schmeißt zuvor indexierte Seiten raus und meint, die wären noch nie indexiert worden.

    Wer zuerst "Datenschutz" sagt, hat verloren.

  • Verstehe ich das richtig? Du hast keine robots.txt Probleme?

    Du bist doch auch auf Alex Servern, oder?

    Wenn Du keine Probleme hast und bei Alex bist, dann kann man ein standortbedingtes Problem auch ausschließen. Das war der letzte noch mögliche Ansatz.

    Meine Domänen haben das Problem alle. Alle Hetzner, aber verschiedene Server. Also am Server selbst liegt es auch nicht. Eine Domain hat das Problem nicht, die ist bei Cloudflare. Von Alex kann ich nur in drei Domänen reinsehen, auch die haben das Problem.

    Also jede Seite, auf die ich zugreifen kann in der GSC, hat die Probleme. Daher der Gedanke mit standortbedingt, Vogtland.

    Meine Config kann ich ausschließen. Sind zwar verschiedene, aber dennoch von mir. Aldx hat aber eine ganz andere und das Problem eben auch.

    Wenn ein Mensch nicht um dich kämpft, hat er nur gewartet, dass du gehst. ;(

  • Menno. Jetzt hab ich extra nochmal genau geguckt.
    Am 09.01. hatte ich 14 Fehler beim Abruf der robots.txt.
    Sonst die letzte Zeit zuvor nix.

    Hab jetzt eben nochmal kurz 5-6 andere Sites gecheckt, die auch bei Alex liegen: Da ist alles bestens.

    Aber auf jeden Fall ist Alex dran schuld.

    Wer zuerst "Datenschutz" sagt, hat verloren.

  • Danke Dir, also 9.1. und vorher nix. Passt zu dem, was ich hier sehe, auch wenn andere Tage. Ich registriere das hier teilweise seit dem 15.12. oder so, verstärkt nun aber im Jahr 2024.

    Da ist am 9.1. auch ein kleiner "Hügel"


    Und der hier ist nicht Hetzner, ganz anderer Hoster und anderer Standort.....

    Wenn ein Mensch nicht um dich kämpft, hat er nur gewartet, dass du gehst. ;(

  • Also nur zur Klarstellung. Da wird nix gedrosselt oder sonst was.

    Ich habe es aber auch, viele andere übrigens bei anderen Hostern auch.

    Auch habe ich etwas mit Synonym geschnackt. Google ist natürlich nicht schuld, Google meint das liegt an den Hostern. Wirklich jetzt.

    Ich habe ein Script geschrieben... Hust*GPT*

    Damit möchte ich verschiedene Sachen testen. Wer Interesse hat, dem kann ich das geben. Das läuft lokal und auch auf jedem Server, an den Feinheiten bin ich dran.

    Also wirklich... das man Beweisen muss, das Google scheisse ist... wirklich..

    wenn etwas möglich erscheint mach ich das, wenn das nicht klappt gehts ans unmögliche und ansonsten das undenkbare.

    - nun stolz rauchfrei - Ich denke also Bing ich!

    Support 24h Bereitschaft 0173 6107465 - NUR Für Kunden von SEO NW!

  • Wie ich schon gestern sagte, das Problem dabei ist nicht unbedingt der Fehler selbst. Eventuell ist es auch nur ein Bug in der Anzeige oder sonst was.

    Das Hauptproblem ist, dass Google das Crawling einstellt, wenn die robots.txt fehlerhaft ist. Und das eben auch, wenn das nur ein Bug ist und gar nicht fehlerhaft, aber als fehlerhaft protokolliert wird. Das macht Google nicht, wenn es einen 404 oder einen 410 gibt, denn das würde als "gültig" zählen. Bei den hier angeblichen Statuscodes ist es aber ein Fehler und das führt dazu, dass das Crawling gestoppt wird.

    Ich habe hier auf Seiten teilweise am Tag bis zu 60 robots.txt-Abrufe im Log stehen, aber nur einen oder gar keinen regulären Bot-Zugriff. Also genau das, was Google in der Hilfe schreibt.

    Dann kommt eben auch dazu, dass die robots.txt auch abgerufen oder geprüft wird, wenn die ads.txt für Adsense getestet wird. Auch hier hagelt es mittlerweile im Stundentakt Fehlermeldungen, von wegen ads.txt nicht abrufbar, Umsatzverluste deswegen usw. Aber auch da natürlich. Adsense schreibt ja nur, dass die ads.txt nicht abrufbar war. Sie schreiben aber nicht welcher Tag, welche Uhrzeit oder welche Domain. Und in der Liste der Domänen, immer wenn ich reinsehe, ist alles "gültig". Da steht aber auch nur der letzte Zugriff und kein Protokoll.

    Und das Schlimmste ist ja, dass man von Google wegen jedem Scheiß sofort eine Mail bekommt. Da geht ein Scheme nicht, da fehlen wichtige Angaben, da ist was anderes, dort ist ein (berechtigter) 404 usw. Alles belangloses Zeug, das aber sofort benachrichtigt wird. Bei so was wie "Crawling wird beendet, wegen robots.txt-Fehler", kommt keine einzige Nachricht.

    Und wie ich schon gestern sagte, Alex. Dieser doofe Spruch, das ist nicht wegen Google, sonst müsste es viel mehr Leute mit dem Problem geben, ist völlig hirnrissig, denn wer bitte schaut schon in die Einstellungen und dann robots.txt-Status oder Host-Status. Da muss man ja erst dreimal was anklicken, bevor man das überhaupt erreicht. Logisch, dass das viele nicht merken oder wissen. Ich hab es auch nur durch Zufall gefunden, weil ich danach suchte, warum meine Seite massiv am 15.12. abgeraucht ist. Und siehe da, da waren dann die robots.txt-Fehler ab dem 15.12. Hätte ich nicht danach gesucht, hätte ich es auch nicht gesehen. So viel also zu "müssten viel mehr sein".

    Dazu eben, dass es genau diese Fehlermeldung die Google da ausgibt, in der Hilfe der möglichen Fehlermeldungen gar nicht gibt. Dann hieß es ja, das wäre angeblich nur ein Übersetzungsfehler, der nur in Deutsch auftritt. Komisch, denn wenn ich meinen Account auf Englisch umstelle, dann steht das "Not fetched - N/A" und diese Fehlermeldung gibt es in der Hilfe auch nicht.

    Dieses "nicht verfügbar" in Deutsch heißt für mich eigentlich so viel wie, die Datei ist nicht verfügbar. Aber das N/A hat ja eigentlich eine andere Bedeutung, nämlich dass nicht die Datei nicht verfügbar ist, sondern die Fehlermeldung nicht verfügbar ist. Zu deutsch gesagt, Google weiß nicht, warum das "not fetched", der Grund dafür ist "N/A". Wir würden schreiben "nicht zutreffend".

    Ein gutes Beispiel dafür ist nämlich auch, dass ich ja wirklich einen Ausfall hatte über 24 Stunden. da war ein Server aus. Und auch da protokollierte Google die gleiche Fehlermeldung. So was wie "timeout" oder "server nicht erreichbar", gibt es bei Google in den Gründen gar nicht, da gibt es immer nur "200, 404, 410" für "alles in Ordnung" oder eben "500, 429, 403, 401" für "fehlerhaft". Und das ist ganz einfach, ein Server, der aus ist, kann nichts senden. Es wird aber dennoch ein angeblich fehlerhafter Statuscode als Grund genannt. Und nun sind wir wieder beim aktuellen Zeitraum. Die Zugriffe kommen hier gar nicht an. Also auch da möglich, dass Google schlicht gar nicht auf die robots.txt zugreift, warum auch immer, also wie wenn der Server aus wäre oder die Verbindung unterbrochen und dann eben dennoch behauptet "500, 429, 403, 401".

    Wenn ein Mensch nicht um dich kämpft, hat er nur gewartet, dass du gehst. ;(

  • Ich hätte auch nie den Status der robots.txt überprüft, wenn Du das nicht erwähnt hättest.
    Wozu auch. Jeder Idiotenbot kann eine TXT-Datei in der root finden und lesen, wenn er weiß, wie sie heißt.

    Und rein zufällig habe ich auch rausgefunden, dass google verzweifelt nach einer gewissen ads.txt sucht und nicht findet. Könnte daran liegen, dass ich keine habe. Was google aber auch wissen könnte, weil diese Property ja weder mit AdSense, noch mit AdWords verknüpft ist.

    Wer zuerst "Datenschutz" sagt, hat verloren.

  • Hallo zusammen

    Habt ihr inzwischen eine Lösung für dieses Problem gefunden?

    Ein Kunde hat sich mit genau demselben Anliegen bei mir gemeldet: Seine Google Ads werden wiederholt mit dem Hinweis "Ziel nicht erreichbar" abgelehnt. Seine Agentur hat die robots.txt-Datei überprüft und festgestellt, dass diese anscheinend nur sporadisch abrufbar ist – etwa jedes zweite Mal funktioniert der Abruf nicht.

    Ich habe dieses Problem nun auf mehreren Kundenwebsites beobachtet, wobei es den meisten Nutzern offenbar gar nicht auffällt. Auch im Netz gibt es einige ähnliche Berichte. Die Marketingagentur meines Kunden erwähnte, dass auch bei ihnen mehrere ihrer Metanet-gehosteten Websites betroffen sind. Allerdings habe ich mittlerweile auch Beispiele gefunden, die bei anderen Hostinganbietern liegen. Daher vermute ich, dass es sich nicht um ein Metanet-spezifisches Problem handelt.

    Ich möchte dieser Sache weiter nachgehen und bin für jeden Hinweis oder Lösungsvorschlag dankbar.

    Vielen Dank im Voraus!

  • Ich habe diese Website erst kürzlich übernommen und daher noch nicht den vollen Überblick über die gesamte Konfiguration – es herrscht noch ein ziemliches Chaos.

    Soweit ich sehe, ist die kostenlose Version von Wordfence aktiv, und über das WP-Toolkit von PLESK sind verschiedene Sicherheitsmassnahmen aktiviert. Zur Sicherheit habe ich den Bot-Schutz im WP-Toolkit testweise deaktiviert. Ansonsten gibt es keine spezifische WAF oder Firewall auf dem Server.

    Wordfence schliesse ich als Ursache aus, da das Problem auch auf anderen Websites auftritt, auf denen Wordfence gar nicht installiert ist. Bei den Sicherheitsmassnahmen im WP-Toolkit gehe ich davon aus, dass sie den Googlebot korrekt handhaben können, weshalb ich das Problem auch nicht dort vermute.

    Merkwürdig finde ich, dass er jedes zweite Mal durchkommt. Werde mal versuchen, in den Logs nach unterscheiden zu suchen. Vielleicht greift der beim zweiten Mal anders zu. Bin aber nicht der Log-File Experte. Wenn da jemand einen Tipp hat vorauf ich achten sollte - gern.

    Keine Ahnung - bin ich für jeden Tipp dankbar!

  • Soweit ich sehe, ist die kostenlose Version von Wordfence aktiv, und über das WP-Toolkit von PLESK sind verschiedene Sicherheitsmassnahmen aktiviert. Zur Sicherheit habe ich den Bot-Schutz im WP-Toolkit testweise deaktiviert. Ansonsten gibt es keine spezifische WAF oder Firewall auf dem Server.

    Das könnte schon ein Problem sein.

    Wordfence schliesse ich als Ursache aus, da das Problem auch auf anderen Websites auftritt, auf denen Wordfence gar nicht installiert ist. Bei den Sicherheitsmassnahmen im WP-Toolkit gehe ich davon aus, dass sie den Googlebot korrekt handhaben können, weshalb ich das Problem auch nicht dort vermute.

    Es kann wirklich sehr viel sein, Logs sind dein Freund.

    Hast du einen kompletten Server übernommen? Schau mal was da läuft. Damals war es eher ein Bug. Hier kann aber etwas in irgendnem Layer ein Problem vorliegen.

    Bitte mach mal zusätzlich im internen einen Fred auf. Ich könnte das mal testen:

    # Projekt-Feedback

    Ist nicht öffentlich. Nur Domain nennen und kurz ein paar Infos geben.

    wenn etwas möglich erscheint mach ich das, wenn das nicht klappt gehts ans unmögliche und ansonsten das undenkbare.

    - nun stolz rauchfrei - Ich denke also Bing ich!

    Support 24h Bereitschaft 0173 6107465 - NUR Für Kunden von SEO NW!

  • Seine Agentur hat die robots.txt-Datei überprüft und festgestellt, dass diese anscheinend nur sporadisch abrufbar ist

    Wurde die robots.txt selbst geprüft, also selbst abgerufen und geht bzw. geht nicht oder ist mit "geprüft" der Status von Google gemeint?

    Das Problem bei mir ist von allein wieder verschwunden, so wie es auch gekommen war, dauerte ca. 7 Monate. Aktuell läuft es auf allen Domänen bei drei verschiedenen Hostern normal.

    Ich weiß nicht, was es war, aber ich bin mir sicher, es war ein Google-Problem. Hier waren es vier verschiedene Hoster (Hetzner, Strato, Prosite, 1und1), drei verschiedene Hostingangebote / -arten (Root-Server, vServer, Baukasten). Gemeinsam hatten sie nur den Standort Deutschland (Vogtland, Berlin, Hamburg, Nürnberg, Frankfurt). Ich hatte mir damals sogar noch einen neuen Server bestellt, nur für den Test der robots.txt und zack, schon am ersten Tag hagelte es auch dort Fehler. Auf dem war nichts drauf, nur eine statische Datei, die robots.txt.

    Ja, schaue in die Logs. Wenn es so ist wie bei mir, dann erscheinen die "erfolglosen Zugriffe" dort gar nicht. Wie oben geschrieben, es gab da nie einen Serverzugriff, aber eben die Statusmeldung von Google. Gehe die Logs durch und schreibe dir alle Zugriffe für die robots.txt auf. Datum, Uhrzeit und IP. Dann vergleich das mit den Daten, die Google anzeigt.

    Ich persönlich schließe eine Firewall schon immer vollständig aus. Wie soll das denn technisch auch gehen? Eine statische Datei, die mal geht und mal nicht. Dann müsste a) die Firewall auf eine Datei ausgelegt sein und nicht auf eine IP und b) müsste man die ständig aktivieren und deaktivieren, denn jeder zweite Zugriff geht ja, egal wann der ist, also 10 Sekunden später oder 5 Stunden.

    Wenn ein Mensch nicht um dich kämpft, hat er nur gewartet, dass du gehst. ;(