Google und URLs als Klartext

catcat

Das würde ja bedeuten, das der bot den Text parst.
Wer parst denn Text?

Oder hat der jetzt nen Algo drinne, der URL aus Text extrahiert?

Synonym

Ja, das würde das bedeuten. Bei Abakus gab es da ja schon mal so eine Diskussion und da habe ich mich vehement dagegen gewehrt und immer gesagt, das wird der nicht machen. Technisch möglich, aber zu aufwendig.

Fakt ist aber, der hat drauf zugegriffen und nur der. Kein anderer bisher, noch nicht mal ich selber. Hoffe auch, dass das jetzt keiner vom Forum hier macht. Möchte gerne noch sehen, ob die Seite in den Index kommt

Würde mir nun auch eventuell erklären, warum Google diese Verbindung zwischen meiner Firmenseite und den Reiseportalen hat. Die Diskussion hatte ich hier ja auch schon. Da ist nichts, was auf eine Verbindung hindeutet, gar nichts.... Nach dem damaligen Stand jedenfalls. Auf der Firmenseite gibt es aber eine URL-Angabe "http://www.meine-domain.de" auch als Klartext, als Hinweis für Leser, was ich nun hauptsächlich mache.

Und wenn ich es mir recht überlege... Die beiden Dummy-Seiten, die nun seit ein paar Tagen in meinen WMT als "unbestätigt" erscheinen haben auch keine Verbindung (aber gleiches Thema), beide aber auch einen URL in Textform.

Letztes Beide (Firmenseite und unbestätigte Seiten) können Zufälle oder auch was ganz anderes sein, aber dass ich die Benachrichtigung über den Zugriff auf die Seite bekommen habe nicht. Die ist nagelneu, war nie verwendet, nie verlinkt und nie aufgerufen. Steht nur im Text der Startseite.

Zitat

Das würde ja bedeuten, das der bot den Text parst.
Wer parst denn Text?
Oder hat der jetzt nen Algo drinne, der URL aus Text extrahiert?

Text parsen stand für mich nie in Frage, das wird der schon machen. Muss ja schließlich auch wissen was da drinnen steht. Der kann ja nicht einfach bei einem aufhören und alles bis zum ignorieren. Und Parsen muss er in sowieso, sonst würde er ja auch nicht wissen was da steht

Nur, dass der Webadressen herausfiltert scheint mir neu zu sein. Ich hielt das für zu aufwendig und "unsicher". Nicht jede "Adresse" ist auch eine. Vielleicht fehlt zwischen "satzende.de" auch einfach nur ein Leerzeichen und das ist keine deutsche TLD. Vielleicht erkennt er die aber auch nur, wenn www und http davor steht. In meinem Fall ist beides da und extra ein Leerzeichen davor und dahinter, also wirklich einfach gemacht.

Um, wenn ich mir das so recht überlege... Da finden sich bei mir noch viel mehr Punkte, die damit zu tun haben könnten. Auch der Piwik-Ordner, auf den Google immer zugreift. Der steht auch nur als Text im Quellcode.

catcat

'kay. Das mit "dem Text parsen" hab ich nicht richtig ausgedrückt.
Ich meinte eigentlich: Welcher Idiot analysiert den Text in der Hinsicht, das ein Text "text text tolle-seite.de text text text" einen Link enthält, den dann auch noch speichert und irgendwann mal weiterverfolgt?
Hat der Bot nix anders zu tun?

chris21

Tja, der Googlebot hatte irgendwann im Sommer letzten Jahres festgestellt, dass er inzw. alle zugänglichen URLs des Webs kennt, hatte zu wenig zu tun und wollte den Rest auch noch finden. URLs aus Klartext, JS-Links, POST Abfragen, etc.

Bald wird er das auch durch haben und dann wird es viel schlimmer: Wörterbuchattacken vom Bot auf URLs und URL-Kombinationen :o

Synonym

Zitat

Hat der Bot nix anders zu tun?

Anscheinend nicht

Im Endeffekt ist mir das egal, wenn der die nur "erkennt und verfolgt", nur werden die auch irgendwie gewertet? In den WMT stehe sie als Referenzseite für Fehler, aber das sagt ja auch noch nicht viel aus. Ob die auch als "Backlink" zählen oder dort auftauchen habe ich noch nicht gesehen auch noch gar nicht danach geschaut. Wenn die aber gewertet werden, dann muss man auch noch aufpassen welche Adressen man in seinem Text überhaupt nennt (schlechte Nachbarschaft etc...).

Aber einen Sinn macht das ja eigentlich schon irgendwie. Auch wenn es nur eine Adresse als Klartext ist, einen Sinn hat sie ja, dass die da steht und ist normalerweise halt schon eine Art Empfehlung für Leser. Oder eben ein abschreckendes Beispiel - und hier liegt das Problem.

Nun, nofollow haben wir ja schon, vielleicht gibt es auch bald ein noread ??

catcat

Naja. ich stell mir halt grade vor, was google für ne abartige Rechenleistung haben muß:
Die lesen und katalogisieren nicht nur die Texte von Milliarden Sites - die extrahieren da auch noch so nebenbei die URLs aus Texten^^
Und die müssen ja auch erstmal weitergegeben und verarbeitet werden.

Wieviel zig-100.000 Server haben die eigentlich?

Synonym

Zitat

Die lesen und katalogisieren nicht nur die Texte von Milliarden Sites - die extrahieren da auch noch so nebenbei die URLs aus Texten^^
Und die müssen ja auch erstmal weitergegeben und verarbeitet werden.

Genau deswegen war ich bisher immer der Meinung: "Technisch möglich, aber zu aufwendig."

guppy

hab mir jetzt nicht alles durchgelesen, aber hatte weiter vorne schon mal geschrieben, dass das bei Seiten die in den google news auftauchen schon lange so ist. Da ich auch in den Printmedien werbe und die einen Onlineauftritt haben, der in den googlenews gelistet ist, wunderte ich mich anfangs auch über die Besuche des bots.
Neu ist für mich die Geschichte bei "herkömmlichen" Seiten.

Synonym

Ja, das mit den News hatte ich gelesen. Ist aber keine News. Hätte bisher aber auch noch Zufall sein können, auch wenn doch recht viele auf einmal. Nun ist es kein Zufall. Ich versuche das gerade auch nochmal. Seit 5 Stunden ist eine neue Seite oben. Mal sehen ob die in den Index kommt. Die erste war dummerweise leer - dumm gelaufen. Die jetzige hat neuen Inhalt.

Kann mir zwar nicht vorstellen, dass die in den Index aufgenommen werden, aber so abwägig ist es nun auch wieder nicht. Sonst würde das Spidern der Seiten ja gar keinen Sinn ergeben... Hm, bin mal gespannt.

catcat

Andererseits könnte das zu nem netten Linkboost bei mir führen.
Ich hab da einige Hobby-Webmistressen, die meine Artikel zwar irgendwie verlinken, aber halt nicht richtig so mit <a href...

Synonym

Also so langsam sollte Google das mit den Klartext-URLs aber mal in den Griff bekommen. Die folgen allem, egal ob eine echte URL (als Text), URL mit HTML oder sonst was.

Eine auf der Seite...

fremde-domain.de?site=https://beispiel.rocks/beispiel.rocks…fkjaycykjbdfsgf

Was macht Google? Die rufen "https://beispiel.rocks/beispiel.rocks…fkjaycykjbdfsgf" auf.

Und eben aus den WMT:
reiseinformationen/feiertage-und-brueckentage-2.12.html
reiseinformationen/feiertage-und-brueckentage-2012.html

Beide sind auf der anderen Webseite mit diesem komischen Contaxe oder was das auch immer sein mag versehen.

Benutzer online in diesem Thema