Google und URLs als Klartext

  • So, mir kommt so langsam die Vermutung, dass Google URLs in Textform (Klartext, kein a-href) auch ließt, auswertet und folgt...

    Warum ich das denke? Weil ich nun schon seit Tagen die Fehlerseiten in den WMT durchgehe und immer wieder über das gleiche Phänomen stoße.

    Google meldet Seiten als "404-Fehler" und dabei URLs, die so nie verlinkt waren. z.B steht bei einer Seite eine Liste von Webadressen, aber dort ist nichts verlinkt, sondern nur die URL als Text angegeben. Leider ist die gekürzt worden, da wohl zu lang. Google meldet genau diese URL.

    Solche Seiten gibt es viele...

    Ich habe in Javascript eine Var mit dem Inhalt "/addons/piwik/". Genau diese "URL" versucht Google ständig aufzurufen und meldet entsprechen einen 404.

    Kann das sein oder ist das Zufall?

    Wenn ein Mensch nicht um dich kämpft, hat er nur gewartet, dass du gehst. ;(

  • Über 2 davon bin ich heute früh zufällig ebenfalls in den WMT gestolpert. Hatte mir aber nix bei gedacht außer, mal wieder typisch, die spinnen, die Römer ^^

    Er war Jurist und auch sonst von mäßigem Verstand.

    (Volker Pispers)

  • Das ist schon länger so, aber war bisher auf Seiten beschränkt, die in den google-news erscheinen, wenn es bei anderen Seiten auch so ist, dann wäre das neu.

    Frei nach Dieter Nuhr
    Das Internet ist zum Lebensraum der Dauerbeleidigten geworden, die immer einen Grund finden, anderen irgendetwas vorzuwerfen, um sich selbst moralisch zu erhöhen.

  • Also die Seiten sind garantiert nicht in den Google News, weder die Seiten, auf denen die "Links" stehen, noch die Zielseiten. Das sind normale Webseiten, bei den mal in den "Surftipps" eine URL steht. So Whois-Teile, mit Listen von Webadressen, Webkataloge etc... Sind aber auch ganz normale und saubere Seiten, die URLs zu Reiseinformationen angeben. Dort eine von mir, die es aber noch nie gab.. Weiß der Geier wo er die her hat... Google versucht die jedenfalls auch aufzurufen.

    P.S. Alle diese Meldungen sind extrem seit dem 24.12.

    Ich habe da aktuell ein ganz seltsames Gefühl, da passt derzeit zu vieles nicht. Einfach mal so an die 301-Geschichte gedacht, dann jetzt diese 404-Dinger und bei den "robots.txt-Fehlern" gehen mir auch die Alarmglocken an (über 28.000 Meldungen. Sonst waren das immer so um die 200). In den WMT sind heute auch wieder 2 Domänen als unbestätigt aufgetaucht, die vorher nicht da waren - gehören mir, sind aber nur Dummies und brauche ich in den WMT nicht.

    Wenn ein Mensch nicht um dich kämpft, hat er nur gewartet, dass du gehst. ;(

  • Zitat

    aber dass mit den links die keine links sind und 404 produzieren hab ich auch schon von anderen gehört.


    Ja, aber um das zu tun muss man die ja aufrufen. Also URLs in Klartext erfassen und ausführen. Ich würde noch nicht mal was sagen, wenn die Fehlerseite einer aufruft und Google dann wegen dem Adsense gleich hinterher kommt, aber auf einigen ist gar kein Adsense drauf, da der Aufruf der URL zu einem Server-Fehler (Bad Request) führt... Sind dann URLs wie die hier: *** Link veraltet ***

    Und das andere, das mit den robots.txt ist so was da:

    Code
    AjaxRequest('/js/kalender-div.php?id='+field_id+'&y='+year+'&m='+month+'&f='+format, function(data)


    Das wird innerhalb einer JS ausgeführt, die ist per robots.txt gesperrt. Die kalender-div.php ist auch gesperrt und Google schmeißt mir da nun über 28.000 Meldungen in die WMT von "year" 1 bis 3500 ... Das kann aber auch nicht sein, denn selbst wenn er die Seite aufrufen wurde, der Kalender geht nur 2 Jahre vor und zurück, ab dann geht nichts mehr.

    Wenn ein Mensch nicht um dich kämpft, hat er nur gewartet, dass du gehst. ;(

  • ja was bei "durch robots.txt gesperrt" steht ist bei mir auch ein wahnsinn. da ein formular mit kalender. google nimmt da irgendwelche daten und die seiten die da angegeben sind könnten auf unendlich viele steigen.

  • mano_negra
    An sich sind mir diese "Robots.txt-Fehler" ja egal, denn verhindern lassen die sich nicht wirklich bzw. sind eben normal. Doch jetzt nimmt das wirklich überhand und es macht keinen Sinn. Vorwort: Es ist bei mir kein Formular. Es ist eine Seite mit einem Kalender. Darüber ist eine Mini-Navigation mit "Monat vor" und "Monat zurück". Das geht immer nur 24 Monate in beide Richtungen ab dem aktuellen Monat. Ab dann verschwindet die Navi und mögliche URL-Eingaben werden auch verweigert.

    So, nun habe ich in den WMT über 50.000 dieser Meldungen!

    Wie gesagt, das sind reine URLs, kein Formular um was einzutippen. Auch werden scheinbar gültige Werte verwendet. Jahr (y) von 1000 bis aktuell 4200. Monat (m) immer von 1-12. Id wird gar nicht verändert. Scheint also so, als ob die Navi unendlich weiterlaufen würde, tut sie aber nicht.

    Aber selbst wenn sie das täte, dann dürfte Google darauf gar nicht zugreifen, denn....

    Hauptfile, das auch im Quelltext steht:
    kalender.js -> das ist per robots.txt gesperrt.
    Die kalender.js für einen Request durch und holt die Daten von kalender.php. Auch diese ist in der robots.txt gesperrt.

    Also so:
    Webseite
    -> kalender.js
    --> kalender.php
    ---> Mini-Navi zu kalender.php?parameter

    Somit muss Google also erst einmal die "Sperranweisung" der .js missachten, um überhaupt an die .php zu kommen. Dort muss er die Sperranweisung dann auch missachten, um die ganzen .php?mit_parameter abzurufen... Das ist doch nicht normal und hat mit "beliebig Befüllen von Formularen" doch auch nichts mehr zu tun. Oder liege ich hier nun falsch?

    Missachten in dem Sinne, dass er es zwar in den WMT meldet, die URLs aber dennoch aufruft und diese zuvor auch selbst so erstellt, denn im System gibt es die nicht und gab es die nie.

    Den Kalender gibt es auch schon seit 5 Jahren, gab nie Probleme damit. Erst seit Weihnachten ist das so.

    Wie gesagt, ist mir eigentlich egal, ich wollte die anderen Fehlermeldungen durchsehen und prüfen (URLs als Klartext, wie es im Titel steht), doch so habe ich keine Chance da in den WMT überhaupt etwas zu sehen, nicht bei über 50.000 Meldungen.

    Wenn ein Mensch nicht um dich kämpft, hat er nur gewartet, dass du gehst. ;(

  • Aber das wirkt sich doch nicht aufs Ranking aus, oder?
    Bei meinen Magentos versucht der schlaue google-bot auch immer alle möglichen Artikelkombinationen durchzukauen (obwohl die durch die robots.txt sowieso von der Suche ausgeschlossen sein sollte) und ich seh dann zig-10000 "durch robots.txt eingeschränkt". Die ranken aber trotzdem gut.

    Wer zuerst "Datenschutz" sagt, hat verloren.

  • Ja, das ist es wirklich. Wenn ich meine eigenen Beiträge da mal so lese, dann würde ich auch fast denken "der spinnt", "unglaubwürdig" oder sonst was... Leider ist dem aber nicht so.... Ich habe die Sperrung in der robots.txt nun mal entfernt und die Datei umbenannt. Nun gibts bei jedem Zugriff einen 404... Freue mich dann ja schon drauf, wenn das andere "Log" in den WMT voll läuft :(

    Das ist der entscheidente Teil vom kalender.js. Ausgelöst wird das "kalender_open" durch einen "onclick" auf der eigentlichen Webseite.

    So, bin dann mal gespannt, ob Google die neue URL nun wieder aufruft. So war es vorher auch, ist identisch, nur der Dateiname ist nun ein anderer.

    So, WMT-Test bringt auch das gleiche wie zuvor:

    Zitat

    URL
    /js/kalender-div-neu.js

    Googlebot
    Blockiert für Zeile 5: Disallow: /js/

    Googlebot-Mobile
    Blockiert für Zeile 5: Disallow: /js/

    Wenn ein Mensch nicht um dich kämpft, hat er nur gewartet, dass du gehst. ;(

  • catcat
    Nein, bisher gibt es im Ranking keine Veränderungen. Dennoch tut Google hier ja was, was er nicht soll / darf. Wäre mir egal, aber es verhindert halt alle anderen "Auswertungen" von Fehlern, die wirklich welche sind.

    Wenn ein Mensch nicht um dich kämpft, hat er nur gewartet, dass du gehst. ;(

  • Und wenn Du den Kalender einfach wegmachst?
    Oder erfüllt der ne wichtige Funktion für Deine User?
    Vielleicht kannste den ersetzen?

    btw: Vielleicht gräbt der bot erst seit Weihnachten den Kalender durch, weil er irgendwo verlinkt wurde?

    Wer zuerst "Datenschutz" sagt, hat verloren.

  • Und die Seiten sind verlinkt von? Also die WMT zeigen an, dass die Seiten von der eigenen Domain verlinkt sind und nicht von so einer Pseudosuchmaschine, die sich nicht an die robots.txt halten?

    Frei nach Dieter Nuhr
    Das Internet ist zum Lebensraum der Dauerbeleidigten geworden, die immer einen Grund finden, anderen irgendetwas vorzuwerfen, um sich selbst moralisch zu erhöhen.

  • Google hat vor einigen Monaten beschlossen, noch viel heftiger Deep Crawling zu betreiben als es früher schon der Fall war. Insbesondere auch POST Abfragen abzusenden, nicht nur GET Abfragen, die - wie auch bei Dir beobachtet - mit Parametern aufgefüllt wird.

    Ich habe auch 6-stellig durch Robots.txt eingeschränkte URLs allein aus einem Crawl über die Feiertage (25.-26.). Da die Robots.txt aber gut aufgebaut ist und für den Bot klar ist, welche Seiten er beachten muss und welche nicht, stört es mich nicht weiter, dass er nun meint, seinen "Durch Robots.txt eingeschränkt" Bereich soweit auffüllen zu müssen.

    Ebenso stören mich die Fehler bzw. 404 bei nicht existenten URLs, die meist durch Scraper SuMas oder ähnlichem Müll entstehen, nicht. Auch hier folgt Google der gleichen Deep Crawl Philosophie: Alles, was wie ein Link aussieht, wird gefolgt.

    Letzteres hat nur mein Usability Herz aufhorchen lassen, da ich nur allzugut jene 404 kenne, die entstehen, wenn Nutzer eigenständig Links per Mail verschicken und dabei der Link z.B. in einer Mail gebrochen wird, da die Nutzer kein < > verwenden. Oder sie kopieren nur den sichtbaren Teil aus dem URL Feld ihres Browsers, etc. Daher habe ich mich an einen Algo gemacht, der bei 404 erst "rät", ob er vll. die gewünschte URL aus der falschen herleiten kann und dann die Nutzer direkt per 301 weiterleitet. Für absolut dumme 404 gibt es weiter einen 404 (410 für Seiten, die mal existierten und gelöscht wurden).

    Ich würde also empfehlen, auf den Krams in den WMT nicht allzuviel zu geben. Stört nur, wenn man es nutzt, weil irgendwo auf der Seite tatsächlich Fehler sind und diese nun zwischen dem Rauschen schwerer zu finden sind. Ist aber auf der Seite alles richtig, die richtigen URLs im Index, die falschen per Robots.txt und noindex gesperrt, würde ich mir über die WMT Angaben keine Gedanken machen.

  • Zitat von guppy;11198

    Und die Seiten sind verlinkt von? Also die WMT zeigen an, dass die Seiten von der eigenen Domain verlinkt sind und nicht von so einer Pseudosuchmaschine, die sich nicht an die robots.txt halten?


    Gute Frage.... "Verlinkt von": "Nicht verfügbar"

    Wenn ein Mensch nicht um dich kämpft, hat er nur gewartet, dass du gehst. ;(

  • Rischtisch @chis.
    Ich geb auch nich viel auf die Fehlermeldungen in den WMT.
    Ich crawle meine Sites sowieso selbst und suche da nach fehlerhaften Links.
    Geht schneller und ist zuverlässiger.
    Und 1 Blick in die robots.txt der Site und ein 2. Blick in die Sitestruktur genügen auch, um da Fehler zu erkennen.

    Wer zuerst "Datenschutz" sagt, hat verloren.

  • Chris
    Ja, Post und Get selbst füllen... Aber über Seiten, auf die gar nicht zugegriffen werden darf?

    Wenn Google mir sagt, dass er die .js nicht aufrufen kann, da per robots.txt gesperrt, dann ist das logisch und verständlich, die steht ja auch im Quelltext. Wenn der mir aber dann sagt, dass die .php nicht darf, dann nicht mehr, denn die ist nur in der .js als AjaxRequest enthalten. Selbiges die "weiterführenden" Links der Monate, diese sind nur in der .php, die ja ihrerseits in der .js ist.

    Es muss auf der eigentlichen Seite also ein "onclick" durchgeführt werden, das dann eine JS-Funktion startet. Diese JS-Funktion lädt dann die Daten der .php (ajax) und bindet sie in die Seite ein.

    Deep-Crawling ist ja schön und gut, aber man muss dem doch sagen können: "Eh lass die Finger von der Seite und von den dort enthaltenen verlinkten Seiten und deren Links."

    Zumal das ja alles keine vollwertigen Seiten sind, sondern eben nur Rohdaten, die per JS in die Seite dann integriert werden (ein Div mit 2 Monatskalendern). Der Aufruf der .php direkt führt zudem zu Fehlern, da das benötigte Javascript ja gar nicht geladen wurde und die Funktionen für den Kalender und die Navigation gar nicht verfügbar sind.

    Der Output von der kalender.php (auf die er nicht zugreifen darf!) schaut so aus:


    Nur hier, im oberen Bereich, gibt es die Navi der Monate als onclick="kalender('dv','2012','2','ddmmyyyy');return false;" . Um weiter zu kommen muss man also dieses onclick auch ausführen. Was dann aber auch nichts bringt, da die Funktion kalender() gar nicht geladen ist.

    Wenn der Wertenereich von 24 Monaten überschritten ist, dann ist die Navi gar nicht mehr da. Also ein onclick="kalender('dv','2016','2','ddmmyyyy');return false;" gibt es nicht, schon gar kein 4200!

    Wenn ein Mensch nicht um dich kämpft, hat er nur gewartet, dass du gehst. ;(

  • catcat
    Ist ja auch richtig, ich beachte den Bereich auch nicht sonderlich, aber ab und zu schon. Eben diese "Backlink" die keine echten sind, Google aber dennoch abruft, die stehen nur da. Auch hab ich da nun schon einige echte und gute Backlinks gefunden auf Seiten, die es bei mir gar nicht gibt (vielleicht mal 2005 oder so). Die zeigte mir kein Backlinkchecker an, die WMT schon, eben im Bereich 404-Fehler.

    Wenn ein Mensch nicht um dich kämpft, hat er nur gewartet, dass du gehst. ;(

  • So, wieder zurück zu dem eigentlichen Thema, Links in Klartext im Content.

    Für mich habe ich nun den Beweis, dass Google normale URLs als Text im Content erkennt und auch verfolgt, was auch für die ganzen Meldungen in den WMT spricht (nicht die robots.txt-Geschichte).

    Habe vor zwei Tagen auf meiner Startseite einfach mitten in den Text folgendes geschrieben:
    https://beispiel.rocks/beispiel.rocks…de/urlauben.php
    Ebenso Datei angelegt und eine Benachrichtigung integriert, wenn einer (egal wer) darauf zugreift.

    Und, heute um 8:57 Uhr kam die SMS:

    Zitat

    UA: Mozilla/5.0 (compatible; Googlebot/2.1; +https://beispiel.rocks/beispiel.rocks…le.com/bot.html) IP: 66.249.66.231 END

    Wenn ein Mensch nicht um dich kämpft, hat er nur gewartet, dass du gehst. ;(