Bilder-Crawler? Wie schnell indexiert Bing Bilder?

  • Hallo,

    ich hatte fast keine Bilder (nur drei) in der Bing-Bildersuche indexiert, weil ein htaccess-Code dies versehentlich verhindert hat.


    Der Code ist jetzt geändert und ich habe für die Seiten in den WMT die Indexierung neu beantragt sowie für zwei Bilder (zu Testzwecken).

    Wie lange dauert das nun? Seit drei Tagen keine neuen Bilder indexiert. Dauert das trotz expliziter Beantragung der Indexierung so lange?


    Im Hinblick auf den htaccess-Code, wo die Crawler benannt werden: Gibt es für Bilder noch einen eigenen Bilder-Bot, früher offenbar der msnbot-media?


    Grüße,


    Matinee

  • Vorher so:

  • Also sehe ich das richtig, Du willst also die Bilder für alle sperren, die nicht von Google oder Bing sind. Das "vorher" sperrte die Sumas noch nicht mal aus, denn die senden gar keinen Referer. Bzw. hast Du die damit gesperrt, indem Du "leeren Referer" auch sperrst.


    Den MSNBot-Media gibt es nicht mehr. Hier eine Liste der Bing-Bots:

    https://www.bing.com/webmaster…rs-does-bing-use-8c184ec0


    Wegen den Indexierung kann ich Dir aber sagen, dass es gar keinen Sinn macht, ein Bild direkt zu melden. Das geht zwar, funktioniert aber nicht. Da muss man die Seite selbst melden. Und das kann dann schon mal 1-2 Wochen dauern, bis die aktualisiert wird und dann noch mal mehrere Tage, bis die Medien-Inhalte auch aktualisiert werden. Und ob das dann überhaupt passiert ist auch fraglich.


    Ich habe hier z.B. eine Seite, da sind an die 200 Bilder drauf. Bei Google sind an die 170 im Index, bei Bing 13!

    Don't judge a book by its cover @ Jadyn Rylee
    "Sogar ein Mann mit reinstem Gemüt, der Gebete sagt jede Nacht, kann zum Wolf werden, wenn die Wolfsblume blüht unter des Mondes goldener Pracht"

  • Ansonsten, nur als Anmerkung. Das ist absoluter Overkill..... Zu Deutsch gesagt, da muss also ein UA sein, der mit etwas bestimmten beginnen MUSS, das "bestimmte" aber alles sein kann. Dann muss ein Wort kommen und dann muss er wieder mit was "bestimmten", das alles sein kann, enden. Quatsch, oder, dass man da eine Start- und Endbedingung setzt, wenn die willkürlich sein kann.


    Das hier tut genau das gleiche, braucht aber weniger Ressourcen.


    RewriteCond %{HTTP_USER_AGENT} !Bingbot [NC]

    RewriteCond %{HTTP_USER_AGENT} !MSNBot-Media [NC]

    RewriteCond %{HTTP_USER_AGENT} !BingPreview [NC]

    Don't judge a book by its cover @ Jadyn Rylee
    "Sogar ein Mann mit reinstem Gemüt, der Gebete sagt jede Nacht, kann zum Wolf werden, wenn die Wolfsblume blüht unter des Mondes goldener Pracht"

  • Der gesamte Code ist ein Hotlinkingverbot, Hotlinking im weitesten Sinne, d.h., es sollen alle Zugriffe von außen per scr-Referenzierung unterbunden werden und eine 403 melden (alternativ lassen manche dann ein spezielles Ersatzbild laden).


    Sumas betreiben ebenfalls eine Art Hotlinking und zwar für deren Bildersuche (wer weiß, vielleicht auch für andere Zwecke). Die sollen aber dürfen, möglichst umfassend (am besten alle Bots nennen) und deshalb die Ausnahmen. Gibt auch soziale Netzwerke, die man überlicherweise "lässt" und im Code mit einer Ausnahmezeile bedenkt, z.B. FB.

    Am wichtigsten ist die "domain"-Zeile, die ganz normale Besucheranfragen abdeckt, also alles, was direkt vom eigenen Server kommt.


    Mit dem vorher-Code hat das aber nicht geklappt, die Bildersuche von Bing und G hat nichts indexiert. Offenbar, weil die Zeilen auf die Referrer-URL abstellen, aber die Crawler gar keine Referrer-URL dabei haben. Offenbar war das früher mal anders, denn all die Blogartikel zum Thema Hotlinking haben die "Referrer-Ausnahmen", sonst hätte ich sie ja nicht verwendet. Jedenfalls scheint die Lösung darin zu bestehen, die Bots direkt zu benennen.


    Was

    Code
    #RewriteCond %{HTTP_REFERER} !^$


    angeht, diese Zeile ganz oben gehört normalerweise auch zu so einem Standardcode, habe ich in meinem Fall aber auskommentiert, weil ich momentan noch http auf der Seite habe und in der Folge das Hotlinkingverbot fast nie aktiv wäre, weil bei https --> http die Browser nie einen Referrer mitgeben. Sobald ich auf https umgestellt habe, würde ich die Zeile wieder aktivieren. Die neuen Ausnahmezeilen sollten beide Fälle abdecken.


    In der jetzigen Situation, also mit http, scheint es mit den neuen user-Agent-Zeilen zumindest bei G zu funktionieren. Fast die Hälfte der ca. 260 Bilder sind jetzt im Index. Bei Bing hingegen Fehlanzeige, im Gegenteil: Von den drei Bildern, die seltsamerweise schon vorher indexiert waren (k.A. warum), ist seit heute eines verschwunden. Für alle Seiten habe ich bei Bing die Indexierung beantragt und nur so testweise auch für zwei bestimmte Bilder.


    Was ist denn der Bilderbot bei Bing, wenn es den msmbot-media nicht mehr gibt? Auf der verlinkten Seite steht nichts von Bildern. Sieht m.E. nicht so aus, als ob der bingbot das machen würde.

  • Sorry, ich bin gerade etwas durch den Wind. Corona und Verdachtsfall die eigene Mutter, daher nur ein kurze Antwort.


    Ja, Bing indexiert über den Bingbot, auch Bilder.


    Den Rest den Du schreibst kann ich zustimmen. Die Bilder in der Suche selbst werden von den Sumas gemacht, ohne Referer. Die großen Ansichten dann, die kommen direkt, also Hotlink. Aber auch hier wird kein Referer gesendet.

    Don't judge a book by its cover @ Jadyn Rylee
    "Sogar ein Mann mit reinstem Gemüt, der Gebete sagt jede Nacht, kann zum Wolf werden, wenn die Wolfsblume blüht unter des Mondes goldener Pracht"

  • Zitat

    Ansonsten, nur als Anmerkung. Das ist absoluter Overkill..... Zu Deutsch gesagt, da muss also ein UA sein, der mit etwas bestimmten beginnen MUSS, das "bestimmte" aber alles sein kann. Dann muss ein Wort kommen und dann muss er wieder mit was "bestimmten", das alles sein kann, enden. Quatsch, oder, dass man da eine Start- und Endbedingung setzt, wenn die willkürlich sein kann.

    Das hier tut genau das gleiche, braucht aber weniger Ressourcen.

    RewriteCond %{HTTP_USER_AGENT} !Bingbot [NC]

    RewriteCond %{HTTP_USER_AGENT} !MSNBot-Media [NC]

    RewriteCond %{HTTP_USER_AGENT} !BingPreview [NC]



    Zur Gestaltung der Ausnahmezeile im Detail kann ich nichts sagen, ich bin nicht vom Fach, aber ich habe nur einen einzigen Artikel über Hotlinking gefunden, der anstelle des Referrers den user-Agent nimmt und der hatte den Code so. Keine Ahnung, inwieweit der Betreffende das absichtlich so aufwendig codiert hat.

    Also so wie oben ist es das Gleiche, nur einfacher?



    Zitat

    Ich habe hier z.B. eine Seite, da sind an die 200 Bilder drauf. Bei Google sind an die 170 im Index, bei Bing 13!


    Ist das "normal" bei Bing oder vermutest du individuelle Gründe speziell deiner Bilder? Vielleicht weil die Bilder keine/wenig Metadaten haben oder nicht im Maincontent plaziert sind oder weil es das gleiche Bild schon ein paar im Index gibt?

  • Bing ist lahmer in der Indizierung, war mal anders. Auch bei Bildern. Das war mal komplett umgekehrt.

    Da konntest einen Artikel in den Index blasen und es war gut so. Ich denke die haben da irgendwie zurückgerudert.


    Schade eigentlich


    Aja wegen deiner htaccess.. Vieles was so im Internet herumschwirrt ist mittlerweile veraltet bzw überholt. Versuche jede Zeile zu verstehen. Also nicht nur einstellen und hoffen das alles gut geht.

    wenn etwas möglich erscheint mach ich das, wenn das nicht klappt gehts ans unmögliche und ansonsten das undenkbare.

    Ich denke, also BING ich!


    Support 24h Bereitschaft 0163 2161604 - NUR Für Kunden von SEO NW!


  • Bing hat den Kampf gegen G aufgegeben, scheint es. Das ist schlecht. Monopole sind nie gut, noch nicht mal für den Monopolisten selbst.


    Ich verstehe die Aussage der Ausnahmezeile schon, aber wie das im Detail mit welchen kryptischen Zeichen codiert wird... das ist mir völlig fremd und ehrlich gesagt habe ich auch keinen Ehrgeiz, das zu lernen. Ich versuche eh immer alles so gut wie möglich selbst zu verstehen und zu machen, aber es gibt Grenzen.

  • Nee, liegt nicht an meinen Bildern. Die sind a) unique und b) befinden sich die quasi in drei Galerien. Bing schnappt sich da einfach nur immer welche raus. Sind auch nicht immer die gleichen, mal verschwindet eines und ein anderes kommt, mal sind es nicht 13, sondern 30.

    Don't judge a book by its cover @ Jadyn Rylee
    "Sogar ein Mann mit reinstem Gemüt, der Gebete sagt jede Nacht, kann zum Wolf werden, wenn die Wolfsblume blüht unter des Mondes goldener Pracht"

    Einmal editiert, zuletzt von Synonym ()

  • Klingt nach einer Suma in den Anfangsjahren, die das Indexieren noch nicht im Griff hat. Aber wenn es schon seit langem immer nur max. 30 von 200 sind... ist es vielleicht auch Absicht, wer weiß. Vielleicht spart Bing Kapazitäten und nimmt zum gleichen Thema einer Seite (oder innerhalb einer Galerie) dann nur noch einen Teil.


    G scheint da ganz anders drauf zu sein. Die sind eher "beleidigt", wenn sie nicht zu allem Zugriff haben und indexieren können.

    Mit dem neuen Code wandern jetzt jeden Tag ein paar Bilder mehr in den Index.

    Kann man in der SC eigentlich sehen, welche Klicks von der Bildersuche kommen? Ich sehe dazu nichts.

  • Das mit den 13 aus 200 war nur ein Beispiel, weil die Bilder überschaubar sind von der Anzahl. Und ja, das ist quasi schon seit Beginn an so. Ich habe noch ganz andere Seiten, da reden wir von Bildern im Bereich um die 250.000. Dass Verhältnis ist auch hier in Sachen Google zu Bing in etwa gleich.


    Bei Google weiß ich vermutlich, warum da ein paar Bilder fehlen. Sie sind wohl zu "ähnlich", sind nur andere Blickwinkel oder Zeitpunkte. Witzigerweise tauchen genau die in der SC als "Soft-404-Fehler" auf, warum auch immer.


    SC: Klar kann man das sehen. Gehe auf "Leistung" und stelle dann den Suchtyp von Web auf Bild um. Man sieht dort aber allerdings nicht, welches Bild es war sondern nur den Suchbegriff und die Zielseite.

    Don't judge a book by its cover @ Jadyn Rylee
    "Sogar ein Mann mit reinstem Gemüt, der Gebete sagt jede Nacht, kann zum Wolf werden, wenn die Wolfsblume blüht unter des Mondes goldener Pracht"

  • Verstehen tue ich Bing da aber nicht. Sinn und Zweck einer Bildersuche ist doch, möglichst viele Bilder zu sammeln und dann eine möglichst gute und große Auswahl anzubieten. Da könnten sie G noch am ehesten Paroli bieten. Also warum nur ca. 10% von den auf einer Site vorhandenen? Seltsam seltsam...

    Bin ja gespannt, wie viele sie von meiner Site indexieren. Zumindest die im schema code berücksichtigten Bilder sollten sie ja schon aufnehmen.


    Nochmal zum obigen Code. Wenn ich die jetzt auskommentierte Anfangszeile

    Code
    #RewriteCond %{HTTP_REFERER} !^$

    später wieder aktiviere (weil auf https umgestellt), und dementsprechend ein Referrer vorhanden sein sollte, dann greifen die Ausnahmen für user-Agent Bing und G aber dennoch weiterhin oder?

  • Ja, weil Deine ganzen "Conds" AND-Verknüpfungen sind. Es müssen also alle erfüllt sein, dann kommt der 403. Ist eine davon nicht erfüllt, z.B. weil "bingbot" im UA vorkommt, dann greift die Sperre nicht.


    Aber das mit dem leeren Referer hat nix mit SSL hier zu tun (das zählt nur für Browser und Anklicken von Links von SSL auf nicht SSL). Die Sumas bzw. Bots haben keinen Referer. Die hüpfen ja nicht von einer Seite zur anderen und klicken dabei Links an, so wie Menschen. Die holen sich den Quelltext und machen dann Direktzugriffe.


    Wenn Du einen Link zu einem Bild hier reinstellst und einer klickt den an, dann hast Du einen Referer vom Forum hier. Kopiert man den Link aber und öffnet die URL direkt im Browser, also ohne Klick, dann kommt kein Referer. Und nix anderes machen Bots, die arbeiten Listen mit URLs ab und greifen direkt drauf zu.

    Don't judge a book by its cover @ Jadyn Rylee
    "Sogar ein Mann mit reinstem Gemüt, der Gebete sagt jede Nacht, kann zum Wolf werden, wenn die Wolfsblume blüht unter des Mondes goldener Pracht"

  • Ja, weil Deine ganzen "Conds" AND-Verknüpfungen sind. Es müssen also alle erfüllt sein, dann kommt der 403. Ist eine davon nicht erfüllt, z.B. weil "bingbot" im UA vorkommt, dann greift die Sperre nicht.


    Gut zu wissen, dann muss ich das Ganze nicht nochmal aufgreifen, wenn ich umgestellt habe und kann einfach die Kommentierungsraute entfernen.


    Warum bei all den Hotlinking-Artikeln im Code für die Sumas anstelle des uA der Referrer abgefragt wird, verstehe ich zwar noch immer nicht, weil dann greifen diese Ausnahmen ja nicht. So wie es auch bei mir vorher war. Aber vielleicht muss man dem Universum des www seine Geheimnisse lassen...

  • Beim auskommentieren bzw. wieder einkommentieren der Code-Zeile musste nur aufpassen, die verändert das komplette Verhalten aller "Conds". Wie gesagt, sie sind alle "und-verknüpft". Und wenn Du das "Wenn kein Referer vorhanden" wieder aktivierst, dann schlagen alle anderen fehl, wenn doch ein Referer kommt.


    Die Frage ist also, was GENAU Du willst. Du redest von Hotlinking. Da wäre der Referer richtig. Denn da geht es ja darum, dass eine fremde Webseite Dein Bild einbindet. Wenn das dann ein Besucher aufruft, dann ruft der Browser auch das Bild auf. Da es eine externe Quelle ist, sendet er den Referer. Daher die Abfrage nach dem Referer und die Prüfung, ob der möglicherweise die eigene Domain ist (Code-Zeile 2). Und ein Browser sendet immer einen Referer, wenn ein externes Bild auf der Domain aufgerufen wird (mögliche Ausnahme: SSL - Nicht SSL). Daher die ursprüngliche Code-Zeile 1.


    Sumas sind per se erst mal kein Hotlinker oder waren es früher nicht. Das Problem dort nun ist, dass die kleinen Bilder in der Bildersuche direkt von denen kommen, die großen Ansichten aber direkt von Dir geladen werden. Also sind sie nun eigentlich auch Hotlinker. Daher dann die Abfrage mit dem UA. Wobei das da eigentlich auch nicht hilfreich ist oder nutzlos, denn der Abruf des großen Bildes in der Bildersuche wird vom Browser veranlasst. UA ist also der Browser des Betrachters nicht die Suma. Du bekommt bei dem Abruf des großen Bildes aber den Referer von der Bilderseite mitgeteilt, das macht der Browser. Du hast da also nun ein Konstrukt, das versucht, die Sperrung zu verhindern.


    ^^ Hier ging es aber nur um User, die was ansehen, egal ob in der Suma oder auf fremden Webseiten. Es geht nicht um Bots und Indexierung.

    Don't judge a book by its cover @ Jadyn Rylee
    "Sogar ein Mann mit reinstem Gemüt, der Gebete sagt jede Nacht, kann zum Wolf werden, wenn die Wolfsblume blüht unter des Mondes goldener Pracht"

  • Die Zeilen mit Google und Bing sind quasi für die "großen" Bilder, denn da wird der gesendet. Aber eben bei der Ansicht, nicht Indexierung. Und "Domain", damit man es bei der eigenen Domain sehen kann, aber nicht bei Fremden (Ausgenommen Google und Bing). Wir reden hier aber von "sehen", nicht "indexieren".

    Don't judge a book by its cover @ Jadyn Rylee
    "Sogar ein Mann mit reinstem Gemüt, der Gebete sagt jede Nacht, kann zum Wolf werden, wenn die Wolfsblume blüht unter des Mondes goldener Pracht"

  • Beim auskommentieren bzw. wieder einkommentieren der Code-Zeile musste nur aufpassen, die verändert das komplette Verhalten aller "Conds". Wie gesagt, sie sind alle "und-verknüpft". Und wenn Du das "Wenn kein Referer vorhanden" wieder aktivierst, dann schlagen alle anderen fehl, wenn doch ein Referer kommt.


    Die Frage ist also, was GENAU Du willst. Du redest von Hotlinking. Da wäre der Referer richtig. Denn da geht es ja darum, dass eine fremde Webseite Dein Bild einbindet. Wenn das dann ein Besucher aufruft, dann ruft der Browser auch das Bild auf. Da es eine externe Quelle ist, sendet er den Referer. Daher die Abfrage nach dem Referer und die Prüfung, ob der möglicherweise die eigene Domain ist (Code-Zeile 2). Und ein Browser sendet immer einen Referer, wenn ein externes Bild auf der Domain aufgerufen wird (mögliche Ausnahme: SSL - Nicht SSL). Daher die ursprüngliche Code-Zeile 1.

    Wenn ich auf https umgestellt habe, will ich noch immer dasselbe wie jetzt:

    1. Normales hotlinking (mit Referrer vom Browser) soll unterbunden werden.

    2. Sumas und soziale Netzwerke sollen als Ausnahmen "Hotlinking" betreiben dürfen und in der Folge dann auch indexieren. (Im Zweifelsfall sollen Sumas alles dürfen)


    Zu 2.: Die Ausnahmezeilen für die Sumas ect. sind kein direktes Indexierungsverbot, aber John Müller von Google hat das sinngemäß so ausgedrückt: Wenn sie Bilder laut robots/htaccess ect. nicht verwenden dürfen/sollen, dann macht es auch keinen Sinn, sie zu indexieren. Und dann entscheiden sie sich eben dazu, nicht zu indexieren. Auch wenn sie es theoretisch könnten.

  • Ok, danke, das war mal eine Antwort. Kein Hotlink von anderen, aber Indexierung von Sumas und Hotlink von Sumas. Das wird nicht einfach und 100% sicher. Aber morgen mehr. Corona macht mich platt, nix anderes mehr hier

    :(

    Don't judge a book by its cover @ Jadyn Rylee
    "Sogar ein Mann mit reinstem Gemüt, der Gebete sagt jede Nacht, kann zum Wolf werden, wenn die Wolfsblume blüht unter des Mondes goldener Pracht"