Sitemap konnte nicht abgerufen werden

  • Sagt mal, hat einer von euch eine Idee? Google meint, meine Sitemap könnte nicht abgerufen werden, sagt mir aber nicht warum. In den Serverlogs sehe ich allerdings direkt nach der Einreichung einen Zugriff auf die und die hat einen Status-Code von 200. Also abgerufen werden kann sie wohl. Was will Google von mir?



    Die zweite im Bild ist die eigentliche. Das ist die "Index-Sitemap". Die geht. Die erste im Bild ist nur als Test. Das ist die eigentliche Sitemap, die in der "Index" ist. Habe es da nur direkt versucht, aber geht nicht. Hier heißt es also "konnte nicht abgerufen werden".


    Hier ist die Ansicht der regulären "Index", in der die einzelne Sitemap ist. Auch diese geht nicht. Man sieht also, die Index geht, die enthaltene Sitemap nicht.



    Die Frage wäre nun nur, warum?


    Wenn ich die Sitemap anklicke und mir den Status derer ansehen, dann heißt es dort aber plötzlich, die Sitemap konnte nicht gelesen werden. Ja was denn nun, abgerufen oder gelesen. Eigentlich stimmt beides nicht.



    Das ist eine .gz, ja, aber das ist alles sauber. Die kann man manuell herunterladen und in sämtlichen Tools / Programmen problemlos entpacken und öffnen. Es ist auch das gleiche "Sitemap-Script", das die da erzeugt. Also einen Fehler im Script kann ich ausschließen. Das erzeugt noch viele andere Sitemaps samt "Index", nur mit einem anderen Domain-Namen. Alle anderen gehen, die da aber nicht. Warum?

  • Ähm, jetzt wo ich das geschriebene noch mal lese fällt mir was auf, aber ich verstehe es noch weniger. Mal ein komplettes Bild der Index-Sitemap mit Inhalt:



    Und das ist bei einer anderen Domain. Wie gesagt, gleiche Script, nur anderer Name der Datei. Alle bei Google genauso eingereicht.



    Jetzt stelle ich mir noch zusätzlich die Frage, warum die im ersten Bild mit DOMAIN-Name aufgeführt wird und die im zweiten Bild nicht. Beide gleich eingereicht, geht ja gar nicht anders. ?!?!?!


    Und der Inhalt der Index-Sitemap ist auch richtig. Sagt Google ja selbst, konnte gelesen werden:


  • mal blöd frage:

    hast du die in der robots.txt eingegeben, bzw gemeldet? Stehen da die richtigen Domains drinne?


    Frage nur, weil mir das auch schon passiert ist mit der robots.txt

    da stand dann


    Sitemap:falsche.url

    wenn etwas möglich erscheint mach ich das, wenn das nicht klappt gehts ans unmögliche und ansonsten das undenkbare.

    - nun stolz rauchfrei - Ich denke also Bing ich!


    Support 24h Bereitschaft 0163 2161604 - NUR Für Kunden von SEO NW!

  • Die ist sowohl in den WMT ganz normal gemeldet als auch in der Robots.txt angegeben


    P.S. Eine Sitemap, die nur in der robots.txt steht, erscheint nicht in der Liste der WMT.


    https://www.ferien-ostseekueste.de/sitemap/ferien-ostseekueste-sitemap_index.xml


    enthält:

    https://www.ferien-ostseekueste.de/sitemap/ferien-ostseekueste-sitemap1.xml.gz


    und die robots.txt auch, also die Index entsprechend:

    https://www.ferien-ostseekueste.de/robots.txt



  • Selbst das Forum hier konnte sie abrufen:


    2a01:4f8:242:534d::3 - - [13/Jul/2022:10:02:13 +0200] "GET /sitemap/ferien-ostseekueste-sitemap1.xml.gz HTTP/1.1" 200 13370 "-" "WoltLabSuite/5.5 (URL Unfurling; like Twitterbot)"


    Und da hat sie Google heute Nacht abgerufen, erfolgreich:


    66.249.75.48 - - [13/Jul/2022:00:14:06 +0200] "GET /sitemap/ferien-ostseekueste-sitemap1.xml.gz HTTP/1.1" 200 13871 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"


    66.249.75.46 - - [13/Jul/2022:02:59:20 +0200] "GET /sitemap/ferien-ostseekueste-sitemap1.xml.gz HTTP/1.1" 200 13871 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

  • Hat keiner eine Idee? Seit nun drei Monaten werden Sitemaps nicht mehr geladen. Ich habe wirklich keine Lust mehr. Heute der letzte Tag und der letzte Versuch / Versuche, dann gebe ich auf.


    Habe heute 173 Sitemaps hochgeladen. Immer Stück für Stück erweitert, umbenannt, hochgeladen. Eine URL, noch 5, weitere 10 eingetragen etc.... Immer schön aufgebaut und jede einzelne verfluchte Sitemap gemeldet. Das jeweils als normale XML als auch als xml.gz


    Die ersten 5 Sitemaps gingen noch, das waren dann maximal 462 URL in der Liste. Sitemap 6 mit genau einer URL mehr ging nicht mehr: "Konnte nicht abgerufen werden". Also die eine URL wieder gelöscht, umbenannt und nur hochgeladen. Zack, nun geht die auch nicht mehr.


    Alles wieder zurück, neu angefangen, gleiches Spiel wieder, aber an derer Stelle. Also Server gewechselt und über den versucht. Dito, andere Stelle, aber Ende. Noch mal Server gewechselt, diesmal sogar von Apache auf NginX, was soll ich sagen? Dito.


    Die Sitemap von hier aus dem Forum genommen, die wird laut Google erkannt, bei mir hochgeladen, drei mal Fehler.


    Die Originale, also mit allen URLs gehen natürlich auch nicht.


  • Und mache ich absichtlich einen Fehler, also Datei falsch benannt, dann kommt Fehler: Nicht gefunden. Oder Syntax falsch, dann kommt die entsprechende Meldung. Ist aber alles eigentlich richtig, dann kommt immer nur dieses verfickte "Konnte nicht abgerufen werden" ohne auch nur ansatzweise zu sagen, warum.

  • Hallo Gunnar, danke für Deine Antwort.


    Diese muss ich teilweise mit JA beantworten. Auf einem Server ist fail2Ban drauf, aber der befindet sich a) nur in "Debug" ohne aktive Sperrung und b) registriert er kein "Debug-Blockierung". Teilweise eben auch, da ich ja schon den Server wechselte und es auch dort nicht geht, ohne fail2ban.


    Ich habe z.B. heute Morgen nochmals die eigentliche Sitemap, ohne Index und ohne Komprimierung hochgeladen und eingereicht. Dito... Konnte nicht abgerufen werden. Das wurde sie aber...


    66.249.66.47 - - [05/Oct/2022:07:54:12 +0200] "GET /sitemap/ferien-netzwerk-sitemap1.xml HTTP/1.1" 200 114533 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"


    Die Sitemaps funktionieren auch fehlerfrei bei Bing und Yandex.


    Diese hier ganz unten im Bild ist auch eine Test-Sitemap. Die geht... Benenne ich die um, geht sie plötzlich nicht mehr.



    Auch wenn die Daten da im Bild alle vom 4.10. sind es immer heißt, man soll warten. Ich warte seit Juli. Habe sogar schon das ganze Property gelöscht und neu begonnen, ohne Erfolg.

  • Und es wird immer seltsamen. Sehe gerade, die angeblich nicht funktionierende Sitemal ist laut Abfrage seit gestern indexiert. Als URL, nicht als Sitemap....



    Mache ich einen Live-Test ist auch alles in Ordnung. 200er Status, Mime richtig etc.




    Abruf vom Live-Test:

    66.249.66.45 - - [05/Oct/2022:08:31:44 +0200] "GET /sitemap/ferien-netzwerk-sitemap1.xml HTTP/1.1" 200 114533 "-" "Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.3

    6 (KHTML, like Gecko) Chrome/106.0.5249.61 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"


    Also identisch mit dem oben, nur leicht andere IP.

  • Habe echt keinen Schimmer, was das sein soll.... Zugriffe sind ja da. Firewall und Co kann ich auch ausschließen.


    Google-Support kann man auch wieder knicken, denn dieser Vogel dort ist nun wieder mal der Meinung, es liegt an meiner Seite, weil da bei einer Unterkunft die Preise seit 2018 nicht mehr geändert wurden. Aha und das weiß Google, weil es die Sitemap NICHT abruft.


    Und ich soll die Ladezeit reduzieren, das wäre zu 99% immer das Problem. Ok, weniger als 80ms bekomme ich nicht hin. Dateigröße wäre auch oft zu groß. Hm, ungepackt nicht mal 1 kB.

  • Danke. Ja, das lese ich auch immer wieder, aber sollte ist kann.. Ist das nun ein Bug oder nicht? Der Post da von Dir ist ja auch aus 2019. Überall heißt es, man soll warten. Klar, machte ich ja. Siehe meinen ersten Post mit dem Foto. Ich warte seit 3 Monaten und das Ding ist noch immer "kann nicht abgerufen werden."


    Hab nun sogar mal die Sprache geändert, in der Hoffnung, dann mehr zu erfahren, aber nein.


    Die Index wird regelmäßig verarbeitet, aber eben nur die. Der Inhalt dann ist wieder "Fehler". Die Sitemaps werden aber auch regelmäßig abgerufen, sehe ich ja in den Logs. Also auch so zwischendurch, ohne manuell melden. Dann bleiben die aber dennoch auf "nicht abrufbar".



    P.S. Was dieses "Submitted 2. Oct" soll weiß ich auch nicht. Ich habe da gar nichts "submitted". Das war bei der Domain alles Anfang Juli. Genau genommen am 4.Juli und dann nicht mehr angefasst.



    Und in allen Berichten steht eben, dass dann die entsprechenden URLs nicht aus der Sitemap sind. Also diese Zeile "Bekannt von"



    Das macht mich eben stutzig, denn wenn das nur ein Darstellungsfehler ist mit der "Fehlermeldung", dann müsste ja zumindest mal in den anderen Berichten die Sitemap erwähnt werden, wenn sie denn dennoch eingelesen wird. Wird sie aber halt dort auch nicht. Was ja stimmen würde, wenn das "kann nicht abgerufen werden" stimmt. Nur, wenn es stimmt, dann ist es kein Bug in der Ansicht.


    Ich drehe mich da echt im Kreis.

  • Sehe gerade, habe auch Mist erzählt. fail2ban.... Verwechselt. Das habe ich drauf, aber nur für ssl. mod_security läuft, aber ist nur im Debug. Das schalte ich aber nun mal ab.


    Wobei es das nicht sein kann, denn das ist im Ferien-Netzwerk aktiv, bei der Ostsee-Domain aber nicht.

  • Also das Spiel geht hier munter weiter. Nun wurden ein paar der Testsitemaps "aufgenommen". Maximale Anzahl an URLs liegt bei 99. Was drüber ist steht weiterhin auf Fehler, obwohl der letzte Abruf nun schon auf den 8.10. wechselte.


    Gleichzeitig ist das was Google da veranstaltet eigentlich alles völliger Schwachsinn. Bei mir im System gab es eine URL-Änderung vor ca. 7 Wochen. Alles leitet ganz normal und sauber an die neuen URLs weiter. Gut, Google kennt noch nicht alle, ist ja auch Sinn der Sitemap und genau das Problem.


    Nur stelle ich mir eine Frage. Wie zum Geier findet Google eine Unterkunft, die es erst seit 2 Tagen überhaupt gibt auf einer URL, die es seit 7 Wochen nicht mehr gibt?



    Aber nicht nur, dass es eine alte URL ist, zu deren Zeit es die Unterkunft gar nicht gab, warum zum Geier sind das wieder gefilterte Ergebnisse. Also das Erste "Weihnachten" und das unten markierte "Ostern" und Thema "MIt Kind"? Genau das Problem habe ich ständig. Die eigentlichen Seiten werden komplett umschifft. Das eigentliche Ziel wäre https://www.ferien-netzwerk.de…e/subregion-Dithmarschen/


    Und ich sehe gerade beim Kopieren. Google nimmt auch noch die Kombination aus "Land + Subregion". Diese ist nicht verlinkt und hat auch noch einen Canonical auf das eigentliche Ziel. Grund: Dithmarschen gibt es nur in Deutschland, da braucht es keine weitere Filterung.