Wird Google zu viel zugetraut?

  • Hallo,

    wenn man sich so durch das Thema Links, Abstrafungen und Filter liest, wird ja immer viel davon gesprochen, dass Google dieses und jenes vergleicht, berücksichtigt und in die Serps mit einfließen lässt.
    Als Beispiel, ein Link wirkt unnatürlich, also soll sich Google angeblich auch um
    - alle anderen verlinkten Seiten kümmern, ob diese Links natürlich sind
    - die eingehenden Links der Seite näher betrachten, die eben diesen unnatürlichen Link gesetzt hat
    - die eingehenden Links der Seite näher betrachten, die verlinkt wurde
    - die Links, die eben die Seiten bekommen haben, welche auch die Seite mit den unnatürlichen Link verlinkt haben
    und so weiter.

    Bei jeder automatischen Beurteilung eines Links, müssten praktisch alle eingehenden und ausgehenden Links von einer Seite, deren "Linkpartner", dann wieder deren "Linkpartner" ermittelt, eingeschätzt werden und bei jeder Suchabfrage ausgewertet werden.
    Das kann ja mitunter über viele Ebenen der linkgebenden und linkempfangenen Seiten gehen.

    Google hat eine hohe Rechenleistung, aber wird hier deren Leistungsvermögen nicht überschätzt?

    Auffällig für mich, dass sie eben auch nur mit Wasser kochen und das eben nicht alles automatisch berechnen können, sind ja zum Beispiel:
    - händische Filter
    - eine mögliche Blackliste von auffälligen Webseiten
    - die Nachrichten in den WMT, wo Webmaster aufgefordert werden, sich um eingehende und ausgehende Links selbst zu kümmern
    - die mitunter sehr schlechten Serps
    - die Adwordanzeigen, wo scheinbar nur Geld und nicht der Informationsgehalt gesehen wird
    ( hatte letztens nach einem Script gesucht. Da stand in der Adwordsanzeige kostenlos KW und hinter der Anzeige gleich ein Shop, wo man bezahlen muss )

    Es wird ja auch viele Rechenleistung für andere Dienste benötigt und selbst wenn diese Rechenleistung vorhanden wäre, der Engpass ist ja die Datenübertragung.
    Für wirklich immer echte Vergleiche aller eingehenden und ausgehenden Links ( um nur mal bei den Links zu bleiben, gibt ja noch andere Dinge, wo vor allem die Aktualität eine große Rolle spielt, wenn es um zeitnahe aktuelle Thema auf der ganzen Welt geht ) müsste ja ständig das ganze Internet mit ihren bots abgegrast werden.
    Dafür müssen sie aber eben auch fremde Datenleitungen, eben das Internet, nutzen und da sind eben die Enpässe.

  • Also zu Deinem ersten Teil mit dem Beispiel unnatürlicher Link würde ich sagen, nein, Google wird hier nicht unterschätzt. Meiner Meinung nach braucht das auch nicht sonderlich viel Rechenleistung, denn es muss nicht alles gleichzeitig erfolgen.

    Also dem ist nicht der Fall bzw. technisch nicht erforderlich:

    Zitat

    Bei jeder automatischen Beurteilung eines Links, müssten praktisch alle eingehenden und ausgehenden Links von einer Seite, deren "Linkpartner", dann wieder deren "Linkpartner" ermittelt, eingeschätzt werden und bei jeder Suchabfrage ausgewertet werden.
    Das kann ja mitunter über viele Ebenen der linkgebenden und linkempfangenen Seiten gehen.

    Mal davon ausgehend:

    Zitat

    Als Beispiel, ein Link wirkt unnatürlich, also soll sich Google angeblich auch um
    - alle anderen verlinkten Seiten kümmern, ob diese Links natürlich sind
    - die eingehenden Links der Seite näher betrachten, die eben diesen unnatürlichen Link gesetzt hat
    - die eingehenden Links der Seite näher betrachten, die verlinkt wurde
    - die Links, die eben die Seiten bekommen haben, welche auch die Seite mit den unnatürlichen Link verlinkt haben
    und so weiter.


    Das könnte so laufen.
    - Eine Webseite wird gefunden per normalem Bot. Diese landet in der Datenbank mit sämtlichen Strukturen und ausgehenden Links. Das ist eigentlich die Hauptarbeit an der Sache und hat mit "unnatürlichen Links" noch nichts zu tun.
    - Ein anderes "Modul" / "Script" oder was auch immer, wie man es nennen möchte, wertet die ermittelten Links aus. Dabei fällt einer auf, der als "unnatürlich" eingestuft wird.
    - Hier kann man für die Zielseite also direkt einen Flag setzen und später dann die Mail raushauen. Oder eben einen Zähler hochzählen, wie viele unnatürlich sind.
    - Die anderen eingehenden Links oder die anderen ausgehenden der linkgebenden Seite sind dabei egal, denn diese Daten wurden ja schon vom Bot erfasst.

    Das war jetzt sehr vereinfacht, das kann man auch noch ausführlicher machen oder tiefgreifender. Letztendlich sind das aber nur Vergleiche vorhandener Daten und das ist bei einer guten Datenbank und Struktur nicht sonderlich rechenintensiv. Was Google braucht ist massig Speicherplatz.

    Aber ja, nicht alles wird automatisch gemacht. Vieles muss wohl auch manuell angestoßen werden. z:b. Seiten, bei denen es keine eindeutige automatische Entscheidung gibt, weil der Algo zu doof ist. Die legt man dem Prüfer halt vor. Findet der was, z.B. einen unnatürlichen Link, dann beginnt der Kreislauf. Ist wie bei der Post mit beschädigten Adressaufklebern. Die Briefe landen beim Prüfer, der macht eine neue Kennung drauf und dann geht der Brief zurück in den normalen Kreislauf.

    Zitat

    der Engpass ist ja die Datenübertragung.


    Auch das ist kein Problem. Dafür hat Google ja seine zahlreichen Datencenter und eigene Glasfaseranbindungen. Aber dennoch dauert es, bis alles übertragen ist. Das ist ja der Grund, warum die verschiedenen DC teilweise unterschiedliche Inhalte haben.

    Zitat

    Für wirklich immer echte Vergleiche aller eingehenden und ausgehenden Links ( um nur mal bei den Links zu bleiben, gibt ja noch andere Dinge, wo vor allem die Aktualität eine große Rolle spielt, wenn es um zeitnahe aktuelle Thema auf der ganzen Welt geht ) müsste ja ständig das ganze Internet mit ihren bots abgegrast werden.


    Das tut der Bot ja auch, nur ist der halt nur für die Datenerfassung zuständig. Dass nicht alles von jetzt auf gleich geht ist klar, das dauert, bis alles durch ist. Und intelligent ist der ja auch in der Hinsicht, dass er den Besuch entsprechend der Häufigkeit der Datenänderung anpasst. Merkt der, dass sich da über Monate oder Jahre nichts tut, dann kommt der auch nicht mehr jeden Tag vorbei, sondern vielleicht nur noch jede Woche. Aber auch das ist letztendlich nur eine Auswertung von Zahlen.

    Mal so eine Zahl in den Raum geworfen, auch wenn die schon etwas älter sind: "Steven Levy berichtet von heutzutage circa 20 Milliarden Webseiten, die pro Tag indexiert werden"

    Zitat

    Dafür müssen sie aber eben auch fremde Datenleitungen, eben das Internet, nutzen und da sind eben die Enpässe.


    Nicht unbedingt. Google greift ja von vielen verschiedenen Punkten aus auf das Netz zu. Also verteilt sich das schon mal und legt nicht eine Leitung lahm. Dann hat Google sicherlich andere Anbindungen als wir. Die hängen wohl direkt am Backbone.

    Hier stehen zwar keine Zahlenwerte, aber die Infrastruktur so im Groben:
    *** Link veraltet ***

    Wenn ein Mensch nicht um dich kämpft, hat er nur gewartet, dass du gehst. ;(

  • sicher ist das alles machbar, aber es muss ja auch immer die wirtschaftliche Seite betrachtet werden.
    Mein Beispiel war ja jetzt nur ein Link. Es gibt ja noch viele andere Kriterien und wenn man sich mal das alles so durch den Kopf gehen lässt, ist eben viel Rechenleistung erforderlich.

    Das auch händisch eingeriffen wird, ist für mich ein Eingeständnis der Unfähigkeit des Algo. Genau wie die Meldungen in den WMT.
    Mit Neutralität hat das nichts zu tun, selbst wenn nur eine Seite aus dem index genommen wird, ist das Zensur, warum auch immer. Das ist aber wieder ein anderes Thema.

    Seit dem diese Nachrichten in den WMT kommen, ist für mich klar, dass Google mit der Suchmaschine an seine Grenzen gekommen ist und gegen die ganzen ( guten und schlechten ) Manipulationen nicht mehr ankommt.
    Nicht nur Google hat ja Rechenleistung, sondern viele Spammer auch. Wenn da immer erst jedes Datencenter aktualisiert werden muss und bis dahin der automatische lgo greift, ist Google ja machtlos.
    Da fehlt eben die Rechenleistung, es live erfassen zu können.

  • Klar ist für alles gesehen sehr viel Rechenleistung erforderlich, keine Frage. Aber stellt eben kein Problem dar. Wenn Google ein neues Rechenzentrum braucht, dann wird es gebaut. Wirtschaftlich sind die schon, da bin ich mir sicher ;)

    Live kannst Du sowas nie erfassen, da kannste die ganze Welt mit Rechenzentren zupflastern und es geht nicht. Woher soll Google oder jeder andere denn wissen, dass Du jetzt in dieser Sekunde Deine Webseite geändert hast. Selbst wenn der Bot jede Unterseite von Deinem Forum im Minutentakt abgrasen würde gäbe es einen Versatz. Also wirklich in Echtzeit. Doch was ist Echtzeit hier, wenn es zwei verschiedene Systeme sind? Dein System müsste quasi melden "Hey Google, jetzt kommt an genau der Stelle was neues, komm schon mal und warte". Anders in nahezu Echtzeit wäre, wenn auf jeder Unterseiten ein Bot quasi warten würde und alle Sekunde aktualisiert. Da wäre aber wohl Dein System nach 5 Min tot. Gut, würde das Google mit allen so machen, dann wäre auch das Internet und Google selbst tot, denn die Datenmengen sind zu groß. Aber eben, selbst wenn Internet und Google das verkraften könnten, die Hoster würden ausfallen. Im Grunde wäre das noch schlimmer als ein DDoS, da ja nicht nur ein permanenter Zugriff erfolgt, sondern auch noch eine Datenübertragung.

    Wenn ein Mensch nicht um dich kämpft, hat er nur gewartet, dass du gehst. ;(

  • Das hier ist sehr technisch, aber zeigt, wie der Datenaustausch funktioniert und welchen Anteil Google am weltweiten Internettraffik 2010 hatte (7%)
    *** Link veraltet ***

    Wenn ein Mensch nicht um dich kämpft, hat er nur gewartet, dass du gehst. ;(


  • Mal davon ausgehend:

    Das könnte so laufen.
    - Eine Webseite wird gefunden per normalem Bot. Diese landet in der Datenbank mit sämtlichen Strukturen und ausgehenden Links. Das ist eigentlich die Hauptarbeit an der Sache und hat mit "unnatürlichen Links" noch nichts zu tun.
    - Ein anderes "Modul" / "Script" oder was auch immer, wie man es nennen möchte, wertet die ermittelten Links aus. Dabei fällt einer auf, der als "unnatürlich" eingestuft wird.
    - Hier kann man für die Zielseite also direkt einen Flag setzen und später dann die Mail raushauen. Oder eben einen Zähler hochzählen, wie viele unnatürlich sind.
    - Die anderen eingehenden Links oder die anderen ausgehenden der linkgebenden Seite sind dabei egal, denn diese Daten wurden ja schon vom Bot erfasst.

    Das war jetzt sehr vereinfacht, das kann man auch noch ausführlicher machen oder tiefgreifender. Letztendlich sind das aber nur Vergleiche vorhandener Daten und das ist bei einer guten Datenbank und Struktur nicht sonderlich rechenintensiv. Was Google braucht ist massig Speicherplatz.

    Ja gut erklärt. Oder verfeinert: Google misst deine Daten (ein und ausgehende links / Texte usw.) und vergleicht sie mit den Daten der Topergebnisse. Einen anderen Maßstab haben die auch nicht. Um mal beim Beispiel zu bleiben (links) deine eingehenden links werden Prozentual aufgegliedert von sagen wir mal Bild- Textlink, kommentarlinks, Namen usw. diese vergleicht google (ordnet ein) nach stärke, relevanz, linktexte, platzierung auf der webseite - oben, Footer, navileiste usw.

    Empfehlungsgeber sind in dem Fall die ersten suchergebnisse deines Keys. Wenn du nun vom allgemeinen Durchschnitt der ersten Ergebnisse abweichst z.B. in den Linktexten z.B. zuviele Keywordlinks im verhältniss zu den erstplatzierten hast keine chance vorzukommen. (ums mal so auszudrücken) Oder bekommst ne Mail das dein Linkbild (unnatürliche eingehende Links) enthält. Tip schau dir die erstplatzieren an und analysiere die Seite. Man wird nicht alle Daten erhalten aber viele.

    Hast es geschafft inetwa gleichwertig zu sein stellt sich das nächste Problem ein. Was hast du für links. Sind die Themenrelevant, sind sie Stark, ergänzt der Backlink das Angebot oder führt Inhaltlich weiter. Da gibt es einige Kriterien mal ganz abgesehen von Onpageoptimierung.

    Nunja Synonym hat das schon gut erklärt. Man könnte nun noch weiter in die Tiefe gehen. Die Währung bei google sind immer noch Links mit entsprechenden Linktexten und inhaltsreiche informationen, wobei ich manchmal beim zweiteren zweifel.

  • Hallo,

    das ist schon klar, aber wenn man Miiliarden von Seiten immer darauf abklopfen will, braucht es sehr Rechenleistung. Das mögen die noch schaffen, aber die Spekulationen gehen ja immer weiter, was Google angeblich noch alles berücksichtigt.
    Das habe ich ja versucht oben an Hand der Linktiefe zu beschreiben.
    Fast wie bei Facebook, wo es immer heißt, Freunde deiner Freunde.
    In manchen Blogs oder Foren wird aber langsam so spekuliert, dass diese Freunde deiner Freund sehr tief gehen soll, um angebliche Linknetztwerke aufzudecken.
    Ich meine, irgendwo ist ja jeder um xxx Ecken mit den anderen verlinkt

  • Bin auch nicht allwissend - aber gehe mal an die Sache anders ran. In fast jeden Land wo google präsent ist ist ein Datencenter oder mehrere. In DE sind es drei soviel ich weiß - München, Frankfurt, Berlin. Wenn man bedenkt.... das 1&1 ca. 70.000 Rechner hat, das Facebook auf 30000 Servern 350 Millionen Nutzer verwaltet, das Google mehr als 1 Million Server hat (geschätzt) ist das eine Dimension die man(n) sich kaum vorstellen kann. Und die messen alles und jedes um noch mehr information zu bekommen.

  • KAW
    Wie Wabse schon sagte, das sind ganz andere Dimensionen, die ein normaler so gar nicht versteht. Ansonsten das Beispiel mit FB und den Freunden der Freunde und dessen Freunde. Das Beispiel ist gut. Solche Verknüpfungen macht fast jedes System, insbesondere Counter, SEO-Tools etc.

    Dabei kommt es aber nicht auf die Anzahl an. Ob die nun nur die Freunde der Freunde auswerten oder noch dessen Freunde mit dazu ist nicht viel mehr Aufwand, denn, das wollte ich vorher mit meinen Antworten sagen: Diese Einzelpersonen (bei FB), Webseiten (bei Google), Zugriffe (bei Countern) sind einzelne Datensätze die erfasst und unregelmäßigen Abständen upgedatet werden.

    Diese Verknüpfungen zwischen Seiten oder Profilen werden nicht in Echtzeit gemacht, sondern werden einmal erstellt und in einer Datenbank hinterlegt. Bei Bedarf werden die geändert. Aber bei allen Abfragen und Auswertungen kommen die bereits fertigen Daten aus dieser Datenbank, die einzelnen Datensätze haben damit normalerweise nichts mehr zu tun.

    Musst Du Dir vorstellen wie die Suche hier im Forum. Die kann in Echtzeit sein, dann ist sie aber sehr langsam. In Echtzeit werden bei einer Suche dann alle Posts in der Datenbank nach dem Suchwort durchsucht. Das System hier arbeitet daher auch mit Verknüpfungen. Sprich, man schreibt ein Post und das System liest diesen beim Speichern einmal ein. Sucht sich alle Wörter raus und prüft, ob das Wort schon in der Wort-Tabelle steht. Wenn nicht, dann kommt es rein, wenn ja, dann wird die bereits vorhandene ID ermittelt. In der anderer Tabelle stehen dann die Beziehungen, also welche Wort-ID in welcher Post-ID vorkommt. Die Hauptarbeit ist also die Datenerfassung und die erfolgt verteilt auf jeden einzelnen Post. Anders die manuelle Suchindexerstellung als Admin. Hier zwingt man das System, alles jetzt sofort neu zu machen, daher geht dann der Server auch in die Knie.

    Kommt nun eine Suchanfrage, dann ruft das System in der Wort-Tabelle die ID des Suchworts ab. Mit der Wort-ID ruft es dann alle Einträge in der Beziehungstabelle ab. Und über die daraus erfahrenen Post-IDs kann es die Posts anzeigen.

    Das System arbeitet also größtenteils nicht mit Worten, sondern mit Nummern. Nummern sind sehr schnell zu verarbeiten und die Ergebnismenge klein. Bei Textsuchen wäre es um ein vielfaches größer.

    Und solche Beziehungstabellen werden viele erstellt, nicht nur für die Suche. Das Post selbst wird auch nur in der DB einmal als Rohdaten abgelegt und gleichzeitig in seine Bestandteile zerpflückt, die dann in vielen verschiedenen Tabellen gespeichert werden. Und genau für die gibt es wieder Beziehungstabellen. Daraus ergibt sich aber, dass Zugriffe darauf sehr schnell sind. Der Nachteil ist, es wird deutlich mehr Speicherplatz benötigt, denn im Grunde sind alle Daten ja mehrfach vorhanden.

    Und Google arbeitet letztendlich nicht anders. Und, da ich sagte "ist nicht viel mehr Aufwand". Natürlich ist es mehr Aufwand und bei 1 Milliarde Seiten unvorstellbar viel mehr, aber runtergebrochen auf eine einzelne Seite ist es eben nur minimal. Es ist also eine reine Kosten/Nutzen Frage. Ist eine tiefere Verknüpfung und die dadurch entstehende Mehrarbeit vertretbar, für die daraus neu gewonnen Daten, ja oder nein. Je nachdem, wie das Unternehmen das beantwortet wird es gemacht oder auch nicht.

    Wenn ein Mensch nicht um dich kämpft, hat er nur gewartet, dass du gehst. ;(