Google WMT - 404 Fehler

  • Hi zusammen,

    also bei mir ist über Nacht irgendwie ein Wunder geschehen und von den ehemals 140.000 404-Fehlern sind nun nur noch 300 da :)

    So, nun aber ein ganz anderes Problem an der Sache. Diese 300 hatte ich vor etwa 7 Tagen schon gelöscht. Nun stehen sie wieder da als erkannt am 2.4.

    Das sind alles Seiten, die nicht existieren und nie existierten. Ebenso sind die Seiten nirgends wirklich verlinkt. Das ist das gleiche wie schon mal ein einem anderen Thread geschrieben - die URL steht nur irgendwo als Text auf der Seite.

    Dumm dabei, dass viele die URL kürzten, da wohl zu lang zur Anzeige. Google folgt denen aber und meldet dann den Fehler. Um es zu verdeutlichen. Einige der "Links" kommen von hier: *** Link veraltet *** . Die gekürzten sind alles nur normaler Text.

    Wie soll man mit denen denn nun umgehen?

    Ignorieren? Dann läuft das Log aber irgendwann wieder voll.
    Löschen? Hab ich ja schon, die kommen wieder.
    Weiterleiten? Nur wie und wohin, denn die haben kein Muster. Da müsste ich also alle Fehlerseiten weiterleiten und genau das soll man ja nicht machen und habe ich auch nicht vor.

    Irgendwie drehe ich mich da nun gerade im Kreis. Was macht man denn mit denen?

    Wenn ein Mensch nicht um dich kämpft, hat er nur gewartet, dass du gehst. ;(

  • Ignorien da nicht relevant oder notfalls die gekürzten z.B. auf die Unterkünfte-Ferienhäuser URL umleiten.

    Ich hatte die Fehler der gekürzten URLs mal zum Anlass genommen, einen sinnvollen "URL-Rat-und-Umleit-Service" zu implementieren, da diese gekürzten URLs ja z.B. öfters auch vorkommen, wenn Nutzer Adressen per Mail weiterleiten und diese in der Mail umgebrochen werden.

    So etwas geht natürlich nur, wenn man anhand der gekürzten URL eine richtige URL schätzen kann.

    Die Systematik sähe für Dich ungefähr so aus:

    .../unterkuenfte/art_Ferienwohnungen/region_Bo.. leitet auf

    .../unterkuenfte/art_Ferienwohnungen/region_Bodensee/seite_1_1.html

    .../unterkuenfte/art_Ferienwohnungen/regi... leite auf

    .../unterkuenfte/art_Ferienwohnungen/seite_1_1.html (da Region nicht mehr bestimmbar)

    .../unterkuenfte/art_Ferien... leitet auf

    .../unterkuenfte/seite_1_1.html (da Unterkunftsart nicht mehr bestimmbar)

    etc.

  • Chris,
    Ja, ein paar kann man da sicher umleiten, aber es geht dann ja über die Masse. Also nun nicht direkt auf die URLs aus dem Feed beziehen.

    Du leitest also region_Bo an Bodensee weiter. Das würde gehen. Nur dann müsste man vorher prüfen, ob es a) die Region überhaupt gibt und b) es dort Ferienhäuser gibt. Und c) Es gibt zig Regionen die mit "Bo" anfangen. Also bei jedem Fehler zig extra Queries absetzen und dann dennoch nicht zu wissen, ob das auch stimmt.

    Zudem gibt es schon interne Weiterleitungen, die etwa dann aktiv werden, wenn eine Region verschoben wurde. Ein Ort umbenannt wurde, zu einem Ortsteil wurde etc. Auch gibt es echte und gewollte 404 Fehler für Orte / Regionen, die es bei mir gar nicht gibt. Diese "Allgemeinen" Weiterleitungen würden mit denen aber wohl sicherlich irgendwo kollidieren.

    Und dann kommt da noch der Punkt mit der Menge. Das in dem Feed sind ja echte URLs die nur gekürzt sind. Aber es gibt auch frei erfundene...

    Wenn ich so was weiterleite
    .../unterkuenfte/art_Ferien... leitet auf
    dann leite ich da ja auch die frei erfundenen weiter.

    Ich weiß schon was Du aber im Grunde meinst, nur ich bezweifle, dass das technisch umsetzbar ist bzw. kombinierbar mit dem, was schon da ist.

    "Ignorieren". Das habe ich bisher ja auch. Nur nachdem nun nur noch 1000 angezeigt werden geht das nicht mehr wirklich. Wenn die voll sind, dann sehe ich die echten Fehler ja womöglich nicht mehr.

    Und wie gesagt, das war hier jetzt ein Beispiel mit den URLs aus den Feeds. Da gibt es auch ganz andere, bei denen kein Ordner mit dabei ist, an dem man überhaupt irgendwas erkennen könnte.

    Nachtrag: Bei "/unterkuenfte/region_Bod/seite_1_1.html" könnte ich durchaus eine Weiterleitung integrieren, auf /unterkuenfte/, denn der fehlerhafte Zugriff startet ohnehin die Klasse.

    Aber bei "/unterkuenfte/region_Bod..." komme ich dort erst gar nicht hin. Also entweder htaccess umbauen und dann auch die Scripte oder die Klasse in die Fehlerseite integrieren. Das ist aus Sicht der Performance aber nicht sonderlich gut. Und die anderen Fehler, ohne gekürzte URLs wären noch immer da.

    Wenn ein Mensch nicht um dich kämpft, hat er nur gewartet, dass du gehst. ;(

  • Ich würde hier die WMT Problematik und einen möglichen Usability Vorteil getrennt sehen.

    Letzteres ist für Handlungen von Menschen: Falsche URLs in Emails, Social Media Posts etc. Dafür eine Routine entwickeln, die zumeist einige vernünftig abfängt (im Error Skript) und dadurch zu einer relevanteren Seite bringt.

    Bzgl. WMT: Da kann man doch neuerdings diese Häckchen setzen? Gibt es dann nicht eine "Ignore" Option oder alternativ als gelöst kennzeichnen, so dass die dann hoffentlich da rausfliegen?

  • Zitat

    Da kann man doch neuerdings diese Häckchen setzen? Gibt es dann nicht eine "Ignore" Option oder alternativ als gelöst kennzeichnen, so dass die dann hoffentlich da rausfliegen?


    Ja, gibt es . Hab ich ja auch vor 7 Tagen gemacht. Da kommt aber auch der Hinweis, dass die Meldungen wieder kommen können, wenn der Fehler nicht beseitigt wurde. Und am 2.4. kamen sie eben wieder :)

    Ich sehe auch gerade, dass "/unterkuenfte/art_Ferienwohnungen/region_Bo" an "Ferienwohnungen" weiterleitet. Das macht er nur nicht, wenn da ein ... dahinter ist.

    Und bei so was hier:
    /unterkuenfte/art_Ferienwohnungen/ort_L%
    läuft der sogar in einen Serverfehler. Die Url ist auch nur gekürzt, das soll eigentlich Lübeck sein und das % ist eben Bestandteil der UTF-8-Codierung.

    Edit:
    So, das "..." ist nun auch kein Problem mehr, lag an der htaccess.... An die ganzen anderen komme ich aber nicht ran. Und nun wird alles falsche aus dem Bereich "Unterkuenfte" an eine übergeordnete Seite weitergeleitet - da ist aber nun sehr viel dabei, was wirklich falsch ist.... also auch so Zeug wie "aslkfhkasjdhfksjfdhk"

    Wenn ein Mensch nicht um dich kämpft, hat er nur gewartet, dass du gehst. ;(

  • bin ich froh dass ich nur 2 solcher abgekürzte-url-404-fehler habe.

    hören bei dir die meisten mit ... auf? dann könntest ja zumindest diese auf auf eine seite weiterleiten.

  • Nein, leider nicht. Bei dieser Seite hier jetzt ja, da die über solche Feeds kommen, aber bei anderen Seiten (gleiche System) nicht.

    Da gibt es alles mögliche...

    .... am Ende
    Einfach abgeschnitten
    % am Ende, da mitten im UTF8 getrennt
    und vieles mehr

    auch welche, bei denen die Url hinten dran noch mal eine andere URL als Parameter hat, auch die Ruft Google bei mir auf (Kommen aus einer Pseudo-Suma wie z.B. *** Link veraltet *** )
    etc...

    Andere hängen an eine echte URL hinten ein /impressum an und entfernen dafür die Seitenzahl. Das alles wurde bisher abgefangen, da einfach nur falsch. Nun wird das auch alles weitergeleitet.

    Grob gesagt kommen die URLs auch von allen möglichen Stellen. Webseiten, bei denen ein HTML-Link fehlerhaft eingebaut ist. Da kommt dann der Request auch mit seite.de"%20target="_blank" etc. oder von Feeds oder aus Presseportalen, die Kürzen. Andere kodieren eine UTF8-String nochmal, da kommt dann so Zeug bei raus: "ortsteil-Schuby-bei-D%C3%83%C2%B6rphof/"

    Andere Kürzen in der Mitte einer URL, also als "http://seite.de/ordner/unter..../seite.html". Da ist sogar einer dabei: "unterkuenfte/...Niederrhein/seite_1_1.html" und der kommt von hier: *** Link veraltet *** << wegen so einem Scheiß hab ich hier das Chaos oder wie?

    So Zeug aus Presseportalen:
    /feiertage-und-brueckentage-<b>2.1</b>2.html
    Das <b>xxx</b> ist aber gar nicht von mir. Die URL heißt eigentlich "brueckentage-2012.html" Kommt dort von so einer Art Contaxe-Script.

    Da gibt es fast unendlich Kombinationen.

    Wenn ein Mensch nicht um dich kämpft, hat er nur gewartet, dass du gehst. ;(