Bilder-Crawler? Wie schnell indexiert Bing Bilder?

  • Poste aber bitte dazu mal deine komplette aktuelle htaccess, also so, wie sie gerade genutzt wird.

    Don't judge a book by its cover @ Jadyn Rylee
    "Sogar ein Mann mit reinstem Gemüt, der Gebete sagt jede Nacht, kann zum Wolf werden, wenn die Wolfsblume blüht unter des Mondes goldener Pracht"

  • Etwas unübersichtlich, weil ich die alten Ausnahmezeilen mit Referrer nur auskommentiert habe, aber momentan (noch mit http), sieht die htaccess so aus:


    Kann ruhig bis morgen warten. Erhol dich ruhig.

  • Zitat

    Das wird nicht einfach und 100% sicher.

    Wenn's hart auf hart kommt, könnte ich auf das Hotlinkingverbot auch verzichten, wobei es schon gute Gründe gibt.


    Eigentlich sind meine zwei Wünsche aber der ganz normale Standardfall: Man will normales Hotlinking unterbinden und Sumas, FB ect. soll aber davon ausgenommen "Hotlinking" machen dürfen und indexieren. So will das fast jeder, denke ich mir.


    Eigentlich ist das genau der Fall, der in vielen Artikeln zum Thema Hotlinking mit einem Code abgedeckt wird, der die allgemeine Referrer-Zeile am Anfang hat (nicht auskommentiert wie bei mir) und mit weiteren Referrer-Zeilen Ausnahmen definiert (mit Referrer, nicht per uA).

  • So, das schaut ja gar nicht mal schlecht aus, also echte Hotlinker (fremde Webseiten) unterbinden und spezielle freigeben (Facebook, Pinterest und Co.). Aber noch mal zur Verdeutlichung, denn Du bringst immer zwei Dinge in einem Satz: Hotlinking und Indexierung. Das sind zwei völlig verschiedene Dinge.


    1. Die Bots zur Indexierung kannst Du nur per User-Agent erkennen, die senden niemals einen Referer.


    2. Hotlinking in dem Sinne, also eigenes Bild auf fremder Webseite, das wird dann bei Abruf ein Referer gesendet und entsprechend der Liste dann freigegeben oder nicht.


    3. Die Bildersuchen selbst sind zweischneidig. Für die Indexierung muss der User-Agent freigegeben sein (Punkt 1). Dann hat man also das eigene Bild als kleine Version in der Bildersuche. Für die große Bildansicht nutzen Sumas nun auch Hotlinking und somit greift hier dann der Referer und nicht der User-Agent (Punkt 2).


    Sprich, die folgende Cond ist dafür, dass man das große Bild in der Bildersuche sehen kann. Hotlink und Referer Google. Hast Du auskommentiert, also für die Darstellung in der Bildersuche nicht gut (für den User). Musst aber aufpassen, ob deren URL überhaupt so ist und nicht "images.google.de" oder sonst was. Spielt für die Indexierung aber keine Rolle.


    #RewriteCond %{HTTP_REFERER} !^https?://(www\.)?google\.[^/]+(/.*)?$ [NC]


    Die hier sind für die Indexierung von Google:


    RewriteCond %{HTTP_USER_AGENT} !^(.*)Googlebot(.*)$ [NC]

    RewriteCond %{HTTP_USER_AGENT} !^Googlebot\-Image(.*)$ [NC]

    RewriteCond %{HTTP_USER_AGENT} !^Googlebot\-Video(.*)$ [NC]


    Analog ist das bei den anderen Rules auch. Da sind welche für den "Abruf / Indexierung" und die anderen für die "Darstellung".


    Bei den Großansichten in den Suchmaschinen sendet jeder User seinen eigenen UA und den Referer der Suma. Schau ich mir also ein Bild von Dir bei Google in Groß an, dann bekommst Du UA "Firefox" und Referer "Google.de".. Diese Konstellation ist bei Deiner htaccess nicht abgedeckt.


    Bedenke also:

    Ansicht (Hotlink) = Referer

    Indexierung / Abruf = UA


    Im Grunde könntest Du alle "Referer-Anweisungen" einkommentieren, egal ob SSL oder nicht (Wenn Die auf Deiner Seite sind, dann ist da nun ja ohne SSL, passt also). Wichtig ist, dass die Sumas per UA freigegeben werden (Indexierung). Diese Standard-Hotlink-Dinger, die arbeiten nur mit Referer und sperren halt somit einen Suma-Bot auch aus. Das von Dir schaut aber schon gut aus.


    Es muss also bei Deinen Cons immer alles erfüllt sein. Jede muss TRUE ergeben. Ist nur eine dabei, die FALSE ergibt, dann wird die Sperre nicht eingeleitet.


    Ich hatte meinem System damals (ist aber wegen DSGVO gelöscht) z.B. beigebracht, dass jede Suma indexieren darf. Kleine Bilder in der Suma waren OK. Die großen in der Suma, wo man ja einfach runterladen könnte, die wurden mit Wasserzeichen versehen. Fremde Domänen bekamen einen 403.

    Don't judge a book by its cover @ Jadyn Rylee
    "Sogar ein Mann mit reinstem Gemüt, der Gebete sagt jede Nacht, kann zum Wolf werden, wenn die Wolfsblume blüht unter des Mondes goldener Pracht"

  • Danke für die Mühe und verständliche Erklärung.


    Also müsste ich die zur Zeit auskommentierten Referrerzeilen für G/Bing ect. wieder aktivieren, weil sie neben den uA-Zeilen zusätzlich ebenfalls gebraucht werden und zwar für die Darstellung des großen Bildes in der Bildersuche?

    Wobei ich die großen Bilder rechts oben in der G-Bildersuche schon sehen kann, also auch jetzt, trotz auskommentierter Referrer-Zeilen. Wenngleich sie dort nicht gut aussehen (unscharf-verschwommen, verpixelt). Offenbar nutzt G da tatsächlich nicht das große Bild, sondern eine verkleinerte Version, die hochgezoomt wird. Das würde bestätigen, dass das "Hotlinking" des großen Originalbildes nicht klappt.


    Zitat

    Musst aber aufpassen, ob deren URL überhaupt so ist und nicht "images.google.de".

    Deckt das der Code der Referrerzeile nicht ab, also dass das irgendeine URL sein kann, wo "google" irgendwie vorkommt?



    Alles löschen und Hotlinking zulassen habe ich auch schon überlegt. Die meisten Bilder sind so um max. 300x200px und daher für die meisten wohl zu klein. Und bei den größeren habe ich meine Homepage verewigt im Bild, rechts oben oder rechts unten im Bild.

  • Also müsste ich die zur Zeit auskommentierten Referrerzeilen für G/Bing ect. wieder aktivieren, weil sie neben den uA-Zeilen zusätzlich ebenfalls gebraucht werden und zwar für die Darstellung des großen Bildes in der Bildersuche?

    Ja, im Grunde schon denn die große Bildansicht ist bei Google und Co. nix anderes wie eine fremde Webseite, die Deine Bilder klaut.


    Wie Du schreibst, das "große Bild" ist immer da. Nur wenn es nicht geladen werden kann, dann skaliert Google einfach das kleine hoch. Bzw. umgekehrt, merkt man, wenn man eine langsame Internetverbindung hat. Macht man das große Bild auf, dann erscheint sofort das hochgezoomte kleine. Erst wenn das echte große geladen ist, dann liegt das quasi über dem skalierten. Markt man z.B. auch sehr gut an Silvester, wo viel Traffik an Bildern ist. Da ist das "unscharfe / gezoomte" teils 5 Sek zu sehen, bis dann mal das echte große kommt. Und wie Du schreibst, bei Dir kommt es nicht, es bleibt bei dem "kleinen". Eben weil der Referer Google nicht freigeben ist.

    Deckt das der Code der Referrerzeile nicht ab, also dass das irgendeine URL sein kann, wo "google" irgendwie vorkommt?

    Nein, in dem Fall aktuell nicht. Deine Cond ist da sehr speziell.


    RewriteCond %{HTTP_REFERER} !^https?://(www\.)?google\.[^/]+(/.*)?$ [NC]


    Mal in Deutsch aufgelöst. Das ! am Anfang ist eine Negierung, die Regel darf also nicht erfüllt sein, damit sie TRUE wird.


    ^ ist Anweisung, dass nachfolgendes kommen muss. Also https. Hier gibt es aber eine Einschränkung, denn da steht das ? dahinter. Das ? bedeutet, dass das Zeichen vorher da sein kann, aber nicht muss. Also wäre möglich "http" und "https". Dann muss "://" kommen. Danach dann www. Beachte auch hier das ?. Das www (steht in dem Fall in Klammern, da Zeichenkette und kein einzelnes Zeichen) kann kommen, muss aber nicht.


    Sprich, diese Cond, so wie sie ist, deckt alles ab was http oder https ist, mit oder ohne www und alle TLD, also de, com etc.


    also

    http://google.xx

    https://google.xx

    http://www.google.xx

    https://www.google.xx


    Aber eben keine möglichen Subdomains.


    Das war aber nur ein Hinweis. Musst einfach mal die Bildersuche aufmache und sehen, wo Du da dann landest. Früher war das mal "images", das muss aber nicht mehr sein. Aber eben als Hinweis, dass das auch jederzeit geändert werden kann und dann laufen die Conds von jetzt auf gleich in Leere.

    Don't judge a book by its cover @ Jadyn Rylee
    "Sogar ein Mann mit reinstem Gemüt, der Gebete sagt jede Nacht, kann zum Wolf werden, wenn die Wolfsblume blüht unter des Mondes goldener Pracht"

  • Zitat

    Zitat von Matinee Also müsste ich die zur Zeit auskommentierten Referrerzeilen für G/Bing ect. wieder aktivieren, weil sie neben den uA-Zeilen zusätzlich ebenfalls gebraucht werden und zwar für die Darstellung des großen Bildes in der Bildersuche?

    Zitat

    Ja, im Grunde schon denn die große Bildansicht ist bei Google und Co. nix anderes wie eine fremde Webseite, die Deine Bilder klaut.


    Ich hatte noch gestern abend die betreffenden Referrerzeilen aktiviert, also die Kommentierung entfernt.

    Vorhin prüfte ich die Bildersuche und zum ersten Mal waren Bilder weniger geworden. Fast alle großen Bilder waren raus aus dem Index!?

  • Ok, gestern Abend. Das sagt nix. Auch Google braucht Tage und Wochen, um bereits erfasste Bilder neu zu erfassen. Ich persönlich sehe keinen Grund, warum die Freigabe der Referer (einkommentieren) einen SEO-Effekt haben sollte. Ganz im Gegenteil, damit gibst Du eher Hotlinker mit frei, die meinen "Google" als Referer zu senden.


    Mit der Freigabe der Referer-Conds hast Du also nicht die komplette "Anweisung" (alle Conds gemeinsam) strikter gemacht, sondern offener.


    Kannst mir gerne mal Deine Domain per PN schicken oder eben hier einfach nennen. Ohne ist immer schwierig.

    Don't judge a book by its cover @ Jadyn Rylee
    "Sogar ein Mann mit reinstem Gemüt, der Gebete sagt jede Nacht, kann zum Wolf werden, wenn die Wolfsblume blüht unter des Mondes goldener Pracht"

  • Ist unterwegs.


    Mir kommt gerade eine Idee.

    Vielleicht sollte ich die ganze Hotlinksache deaktivieren, bis alle Bilder im Index sind. Und erst dann aktivieren und schauen, was sich ändert?


    Hab die Referrer vor einer Stunde wieder auskommentiert.

  • So, ich glaube bei Dir an der Seite ist eher ein anderes Problem. Deine Rules oben würden, wenn sie sperren, ein "forbidden" senden und kein "not found". Genau das passiert aber und noch mehr.


    Anmerkung: Mit "große Bilder" meine ich die Ansicht bei Google, also die auf der rechten Seite mit der schwarzen Box. Bei Dir werden die nicht angezeigt, weil die Referer nicht freigeben sind. Da es aber auch zu einem HTTPS -> HTTP kommt, fliegt der Referer sowieso raus, also ist die erste Zeile der Anweisungen wichtig, dass der eben nicht leer sein darf.


    ^^ So, aber das alles war nur Ansicht bei Google in der schwarzen Box, nicht Indexierung.


    Indexierung: Hier sehe ich min zwei Probleme.


    Erstens hat Google Deine Bilder als HTTPS-Version gespidert. Hier bekommt man also bei Dir auf der Seite erst mal eine Sicherheitsrisiko-Warnung.


    Zweitens, auch wenn man die Warnung umgeht (was Google macht), das Bild gibt es dort gar nicht. Es kommt ein 404. Wie gesagt, das ist nicht von den Codezeilen oben, die würden einen 403 senden.


    So, aber so eindeutig ist das noch nicht. Rufe ich ein Bild per HTTP direkt auf, dann kann ich nicht sagen, ob das nun vorhanden ist oder nicht, denn hier kommt dann ein "forbidden", weil Code-Zeile eins auskommentiert ist und ein Direktaufruf eben auch keinen Referer sendet.


    Hier scheint es also Unterschiede zu geben. Ohne SSL greift die Hotlinksperre und mit SSL scheint die zu fehlen und es kommt ein 404. Genau den bekommt Google aber auch bei der Indexierung, denn Google versucht die SSL-Version zu bekommen bzw. die vorhandenen ohne mit denen mit SSL zu ersetzen.


    Wenn wenn ich das gleiche Bild ohne SSL aber mit UA "googlebot" aufrufe, dann wird es ausgeliefert, Status-Code 200. Mache ich selbiges noch mal, aber diesmal mit SSL, dann kommt wieder ein 404.


    Deine Hotlink-Sperre scheint also zumindest in Sachen Indexierung zu funktionieren, aber Du hast ein Problem mit den Hosts an sich. Beim Aufruf der SSL-Version darf kein 404 kommen bzw. das ist aktuell das Problem. Google ist gierig und will unbedingt SSL, egal ob es das gibt oder nicht. Ich habe mit dem Mist schon eine ganze Domäne verloren und wenn Du mal hier im Forum etwas stöberst, das Problem gibt es öfters. Bei Dir kommt ein 404, bei anderen aber durch einen Fehler eine gänzlich fremde Webseite. Da ist Dein Vorteil, aber das ist auch der Nachteil, denn durch den 404 schmeißt Google die Bilder aus der Suche raus.


    Bei den kleineren Bildern, also ich meine jetzt von der Bildgröße an sich, scheint das noch nicht zu sein, denn die sind mit HTTP im Index und nicht HTTPS.

    Don't judge a book by its cover @ Jadyn Rylee
    "Sogar ein Mann mit reinstem Gemüt, der Gebete sagt jede Nacht, kann zum Wolf werden, wenn die Wolfsblume blüht unter des Mondes goldener Pracht"

  • Huch, da ist noch was. Rufe mal Deine Startseite mit HTTPS auf. Ich hätte nun erwartet, dass dort auch ein 404 kommt, aber nein, eine Weiterleitung auf Deinen Webspace-Admin-Zugang. Dir kann es also auch hier passieren, dass Google Deine Startseite einfach mal per ssl aufruft, dann merkt, Weiterleitung, und dann das Loginformular indexiert, und nicht Deine eigentliche Seite.


    Das sind die Probleme. Die Startseite leitet per SSL an was anderes weiter, alle anderen Unterseiten inkl. Bilder liefern einen 404. Und google will nun eben SSL haben oder versucht die Bilder zu ersetzen.

    Don't judge a book by its cover @ Jadyn Rylee
    "Sogar ein Mann mit reinstem Gemüt, der Gebete sagt jede Nacht, kann zum Wolf werden, wenn die Wolfsblume blüht unter des Mondes goldener Pracht"

  • Deine andere Domain, also die aus Deiner Emai-Adresse / Impressum, hat das Problem so nicht, aber ein ähnliches. Da scheint Deine Hotlink-Sperre noch ohne die UA-Angaben zu sein, also die ganz erste Version mit auskommentierten "leeren Referer", denn da ist gar kein durchkommen. Daher auch 0 Bilder im Index.


    Der Vorteil der Seite aber, die SSL- Version ist, auch wenn mit Sicherheitswarnung, erreichbar. Ist die gleiche Seite wie ohne SSL, kein 404.

    Don't judge a book by its cover @ Jadyn Rylee
    "Sogar ein Mann mit reinstem Gemüt, der Gebete sagt jede Nacht, kann zum Wolf werden, wenn die Wolfsblume blüht unter des Mondes goldener Pracht"

  • Puh, mach mich nicht fertig :), aber super, dass du es intensiv angeschaut hast.


    Hm, also ich kann dazu folgendes sagen:


    - Hotlinkingverbot hat auch die andere Site, die "EMail-Site", aber noch nach dem alten Stand, also nur mit den Refererausnahmen, so dass das Indexieren dort noch nicht funktionieren dürfte. Diese Site ist übrigens bei einem anderen Hoster als die per PN mitgeteilte Site.


    - Alle meine Sites haben nach meinem Wissen konsequent http, so ist es z.B. in Wordpress eingetragen


    - Alle WP-Sites haben einen zusätzlichen Server-Login, aus Sicherheitsgründen; danach kommt der WP-Login. Auch auf dem Server logge ich mich mit http ein.


    - Ich habe mal irgendeine Adminsache mit https eingerichtet, also nicht mit richtigem Zertifikat, denn sowas habe ich nicht, aber irgendwas, damit ich zumindest bei meinem Hoster im Adminbereich https habe. Was war das nur? Einfach nur im Browser die Ausnahme festgelegt, glaube ich. Das dürfte aber kein Problem sein, oder? Das war aber meiner Erinnerung nach nur bei der "EMail-Site", nicht bei der per PN genannten, um die es hier geht mit den Bildern.


    - Wenn ich die Startseite der "Bildersite" mit https aufrufe, bekomme ich eine Warnung vom Browser "Mögliches Sicherheitsrisiko erkannt". Das ist das, was mit einer Ausnahme im Browser umgehen kann , so dass man so quasi https hat. Aber halt nur ich mit meinem FF. Das ist das, was du nur bei der "EMail-Site" bekommst? Seltsam, ich habe das bei der www.der-weg..., bei der "Bildersite".


    Was soll ich jetzt tun oder wie prüfen als Erstes?

  • Warum leitest du nicht einfach konsequent auf SSL? Kost doch gar nix zB mit Letsencrypt.

    Habe ich ja vor, allerdings bin ich bei zwei verschiedenen Hostern.


    Beim Hoster für die Bilder-Site muss ich erst in einen höheren Tarif wechseln.

    Beim anderen Hoster gibt es kein LE und im Tarif ist nur ein Zertifikat mit drin. Bei diesem Hoster wird gerade einiges geplant zu ändern. Das muss ich mir dann mal anschauen, aber nur für eine Site da vorher noch SSL (kein LE) einzurichten.... da wollte ich abwarten.


    So ganz "ohne" ist die https-Umstellung auch wieder nicht, da gibt es eine Reihe von Dingen in der richtigen Reihenfolge zu tun. Für dich vielleicht Routine, für mich eine "Aktion".

  • Alex07 Deine Frage mal zuerst. Das geht gar nicht mal so einfach, weil seine Domain1 die Startseite per SSL automatisch an den Adminbereich des Hosters weiterleitet. Mit SSL wäre also die Startseite weg. Da muss erst die Weiterleitung raus, wo auch immer die her kommt.


    Matinee Nein, die Sicherheitswarnung bekomme ich auf beiden Seiten. Die spielt aber für die Indexierung der Bilder keine Rolle (noch nicht), denn der Google-Bot ignoriert sie. Google sieht also das gleiche wie Du, wenn Du die Warnung umgehst bzw. eine Ausnahme hinzufügst. Bei der "Bilder-Seite" kommt dann aber eine Weiterleitung auf das Admin-Tool, bei der "EMail-Seite" kommt Dein normaler Inhalt.


    Und ja, ich weiß, dass das verschiedene Hoster sind, sieht man alleine schon an den Fehlermeldungen. Die eine kommt direkt vom Apache, die andere wird grafisch aufbereitet, wohl von der Verwaltungssoftware.


    Ich habe mal irgendeine Adminsache mit https eingerichtet, also nicht mit richtigem Zertifikat, denn sowas habe ich nicht, aber irgendwas, damit ich zumindest bei meinem Hoster im Adminbereich https habe. Was war das nur?

    Das ist eine Gute Frage und das wird wohl der Grund sein. Das Zertifikat ist selbst signiert, wäre aber für Google erst mal kein Problem, nur für den User, der die Warnung bekommt. Wie Alex schon schrieb, das beste ist, auf SSL umzustellen., mit einem echten Zertifikat. Dazu muss aber die Weiterleitung Deiner SSL-Startseite an den Admin-Login verschwinden, sonst ist Deine Startseite "weg".


    Das andere wäre, den Admin-Login so zu lassen und alles andere per SSL freizugeben. Das wird aber nicht gehen, wenn das keine persönliche Vorgabe von Dir ist, sondern ein Klick bei einem Admintool. Das wird das dann so schon von alleine machen, ohne dass DU was ändern kannst.

    Don't judge a book by its cover @ Jadyn Rylee
    "Sogar ein Mann mit reinstem Gemüt, der Gebete sagt jede Nacht, kann zum Wolf werden, wenn die Wolfsblume blüht unter des Mondes goldener Pracht"

  • Ganz ehrlich, ich kenne Deinen Hoster der Bilderseite, steht ja beim Admin-Login groß drüber. Der berechnet 4 Eur extra für ein LE-Zertifikat, das kostenlos ist? Gut, andere Leistungen sind mehr, brauchst Du aber gar nicht. Die Ausstattung an sich ist auch ok, also nicht überteuert, aber das mit dem Zertifikat ist Mist, ganz ehrlich. Die 4 Eur wären also für das Zertifikat. Dann hast Du noch einen zweiten. Der hat gar kein LE und Du musst extern einkaufen? Das ist Arbeit ohne Ende. Hatte ich früher auch, Zertifikate über 4 Jahre. Also alle 4 Jahre Arbeit, aber die gibt es ja gar nicht mehr. Neuer Standard soll 3 Monate werden. Und das extern?


    Hier wirst Du also wohl aufrüsten müssen, zumindest bei Hoster1. Hoster2 steht ja in den Sternen. Oder Du wechselst. Ich habe nun keine Ahnung, wie viele Domänen Du hast, kenne nur die zwei, aber zwei Hoster sind zwei mal Kosten. Aber es kommt halt auf die Menge an, die ich nicht kenne.


    Will nur sagen und das ist keine Schleichwerbung, die hasse ich. Du bist hier im SEO-NW-Forum. Das ist nur ein Forum. Anbieter dieses Forums ist dieses ominöse Eichhörnchen Alex07 . Und und das Forum ist nur ein Forum, Alex ist selbst Hoster. Vielleicht da mal Rücksprache halten. Das alles nur als Gedanke. Du musst das Paket bei Hoster1 ändern und SSL rein bringen. Hoster2 auch. Alles andere weiß ich nicht, ich kennen Deinen Domainbestand nicht, so tief ging ich nicht rein.


    Nur aktuell ist es so, dass vorerst bei der "bilderseite" irgendwas mit Hotlink-Rules nix bringt in Sachen Google, denn Deine Domain sperrt Google so aus (404).

    Don't judge a book by its cover @ Jadyn Rylee
    "Sogar ein Mann mit reinstem Gemüt, der Gebete sagt jede Nacht, kann zum Wolf werden, wenn die Wolfsblume blüht unter des Mondes goldener Pracht"

  • Der Hoster der Bildersite, Webgo, hat LE, ich müsste aber halt in einen höheren Tarif wechseln. Es sind 3 Sites dort, aber nur die Bildersite ist eine Wordpress-Site mit Datenbank, die beiden anderen sind noch ganz alte statische HTML-Sites. LE ist dann ohne Mehrpreis automatisch für alle Domains dabei.

    Bliebe ich im jetzigen (recht kleinen) Tarif, müsste ich für SSL extra bezahlen. Was sich aber nicht lohnt, da der höhere Tarif auch Voll-SSD hat, mehrere Domains inclusive usw.


    Der Hoster der EMail-Site ist Domainfactory. Die bieten kein LE an und SSL regulär im Tarif nur für eine Domain inclusive. Ansonsten pro Domain 3 EUR für SSL. Die wollen daran verdienen. Dort habe ich ebenfalls 3 Sites, alles WP-Sites im Vollbetrieb.


    Nochmal langsam für mich und alle über 50-jährigen. Bei der Bildersite läuft etwas nicht rund. Und zwar wenn man die Startseite mit https aufruft. Ich habe zwar gar kein https und G sollte das angesichts der canonical URL auch wissen (!), aber G ruft dennoch https auf? Und wird dann im weiteren an das von mir extra eingerichtete Admin-Login weitergeleitet --> 404?

    Habe ich das bis hierher richtig verstanden?


    Korrekt wäre ein direktes 403, ohne Weiterleitung an das Admin-Login?


    Warum stört diese seltsame Startseitenumleitung bei https die Bilderverarbeitung? Abgesehen von der canonical URL mit http hat doch jedes Bild seine eigene URL, warum ist das von dieser Startseitensache abhängig? Das Hotlinking des großen Bildes rechts oben in der G-Bildersuche sehe ich korrekt mit http.

  • Google macht das von ganz alleine. Die versuchen es einfach und schauen dann, was kommt. Eigentlich sollte bei "kein SSL" entweder ein Server-Fehler kommen oder eine Weiterleitung an die Nicht-SSL-Version oder der schlechtere Fall, aber besser als keiner, so wie bei der Email-Seite, einfach eine Kopie der Seite mit den jeweiligen Inhalten.


    Bei Deiner Bilder-Seite kommt hinzu, dass es ja schon SSL gibt, also die Startseite ist ja per SSL erreichbar, aber halt mit Weiterleitung an den Admin-Bereich. Das ist also kein Zeichen im Sinne von "SSL gibt es hier nicht", sondern eher umgedreht.


    Admin Login. Wenn Google her geht, vielleicht haben sie es auch schon und ignoriert, und Deine Startseite per HTTPS aufruft, dann werden die genauso weitergeleitet wie jeder andere auch. Das Loginformular sendet dann einen Status 200, als "Found", keinen 404.


    Und das ist wohl der Knackpunkt an der Sache, dass Google möglicherweise was gefunden hat, das per SSL funktioniert und versucht es nun mit dem Rest auch.


    Die Bilder werden mit SSL abgerufen aktuell, kannste ja selbst ansehen. Im Firefox die DEV-Konsole auf, Reiter "Netzwerkanalyse" und dann in der Google Bildersuche einfach mal ein Bild von dir anklicken, damit das große in der schwarzen Box angezeigt wird. Nun hagelt es bei jedem Bild 404, weil Google das kleine Vorschaubild nun als SSL-Version in groß laden will.


    Das mit der Startseitenweiterleitung stört nicht direkt die Bilderverarbeitung, aber es ist ein Indiz dafür, dass SSL vorhanden ist und Google nun eben versucht, alles so zu bekommen. Google hat ja schon Bilder von Dir, die wurden wohl vorher gezogen und sind nun bei Google als Base64 hinterlegt, mit denen hast Du also nix mehr zu tun. Aber bei der Großansicht des Bildes oder eben, wenn Google mal wieder aktualisieren will, dann nutzen die nun nicht die ursprüngliche HTTP-Version, sondern versuchen HTTPS und da kommt der 404. Und das Spiel geht da noch weiter. Die Bilder in der schwarzen Box werden von jedem User selbst abgerufen. Google hat da aber eine "OnError" drauf und Du wirst merken, dass wenn der 404 kommt (den eigentlich erst mal nur Dein Browser kennt) sofort auch eine Meldung an Google zurück geht, dass es ein 404 ist. Also wird der Bot es selbst irgendwann versuchen (Warteschlange) und bekommt auch einen 404. Dann fliegt das Bild aus dem Index. Bei Dir ist das aktuell nur eine Mischung aus "indexiert als HTTP" und neu geprüft oder durch Rückmeldung übermittelt und per HTTPS neu versucht.


    Ob das alles eine eigene URL hat und nicht spielt keine Rolle, Google versucht SSL automatisch, seit einigen Jahren. Das ist anders als "www" und "kein-www", das sind Subdomänen, aber HTTP und HTTPS sind Protokolle. Die testet Google einfach durch. Im Normalfall kommt "Server nicht gefunden".


    Bei der Bilder-Seite ist das nur verstrickter und verworrener, wegen dem Admin-Login bzw. der Weiterleitung dort hin und den 404 für alles andere. Der Admin-Login an sich ist egal, den hat quasi jeder irgendwie.


    Und weil Du sagst "Canonical". Eben nicht, das gibst Du nicht vor. Nun das Beispiel der Email-Seite:


    Rufe Deine Startseite dort mit HTTPS auf, aber ohne www. Dann kommt erst mal ein 301 an die Version mit www. Das ist schon mal ein eindeutiges Zeichen. Google-Mitarbeiter würden sagen, "man hat ein eindeutiges Signal gesendet". Dann kommt Deine Startseite, ganz normal. Und in der steht dann als Canonical:


    <link rel="canonical" href="https://www.email-seite/" />


    Also ein weiteres eindeutiges Signal, dass der Bot hier richtig ist.


    Bei der Seite ist der Bot nur noch nicht auf den Trichter gekommen, wäre aber möglich. Bei der Bilder-Seite ist es passiert, zumindest mit den Bildern. Kann auch sein, dass der schon Deine ganze Seite mit SSL versucht und es einfach nur ignoriert. Das müsstest Du aber in Deinen Logs sehen, wo und wie der Bot genau zugreift.


    Bei mir war es ähnlich, aber krasser. Ich bin einer der vielen, bei denen durch SSL-Abruf eine falsche Domain ausgeliefert wurde. Hat Google nicht interessiert. Diese Domain hatte kein SSL. noch nicht, war gerade in der Umstellung, daher die Serverfreigaben, aber die Domänen kamen halt Stück für Stück nacheinander. Ist ja nicht binnen 5 Min erledigt. Heraus kam das bei: https://gastgeber-ruegen.de/

    Don't judge a book by its cover @ Jadyn Rylee
    "Sogar ein Mann mit reinstem Gemüt, der Gebete sagt jede Nacht, kann zum Wolf werden, wenn die Wolfsblume blüht unter des Mondes goldener Pracht"

  • Um es anders zu sagen. Aus der Nummer kommst Du bei der Seite nicht mehr raus, zu 99% nicht. Google hat die "klaren Signale", auch wenn sie nur für Google "klar" sein mögen. Da kannste nun senden was Du willst, also neue Signale, das ignoriert Google. Deine Lösung ist also erst mal HTTPS-Umstellung und dann das Thema Hotlinking.

    Don't judge a book by its cover @ Jadyn Rylee
    "Sogar ein Mann mit reinstem Gemüt, der Gebete sagt jede Nacht, kann zum Wolf werden, wenn die Wolfsblume blüht unter des Mondes goldener Pracht"