Google Indizierung von Seiten verhindern

  • So, ich stehe hier anscheinend vor einem für mich unlösbarem Problem, dank der Google Datensammelwut. Ich habe hier einen Kundenbereich und möchte nicht, dass irgendwelche URLs von dort im Index erscheinen.

    Leider funktioniert das nicht und es sind dennoch welche zu finden, da einige Kunden Direktlinks dort hin gesetzt haben und Google diesen natürlich folgt.

    Nur das Problem ist jetzt, dass ich die aus dem Index raus haben will und auch nie wieder dort sehen will. Nur wie?

    Meine Loginseite, auf die Google offiziell zugreifen kann, habe ich mit noindex versehen. Das funktioniert auch. Google beachtet es und nimmt sie nicht auf.

    Das Problem sind aber die Unterseiten, auf die Google über irgendwelche Links kommt. Google folgt also dem Link, mein System prüft den Login und stellt fest, dass er fehlt. Leitet dann weiter an die Loginseite. Google nimmt dennoch die Unterseite in den Index auf!

    Versehen ist alles außer dem Loginformular per robots.txt mit "Disallow: /".

    Die robots.txt verhindert nun aber nicht die Aufnahme, denn im Index sind sie mit "Aufgrund der robots.txt dieser Website ist keine Beschreibung für dieses Ergebnis verfügbar. Weitere Informationen".

    Einen "noindex" kann ich an der Stelle gar nicht setzten, da Google auf Grund des fehlenden Logins ja gar nicht auf die Seite selbst kommt.

    So, wie bekomme ich es nun sicher, zuverlässig und ohne ständige Anpassungen hin, dass Google definitiv die Finger von den Seiten lässt ??

    Wenn ein Mensch nicht um dich kämpft, hat er nur gewartet, dass du gehst. ;(

  • Im Header der Kundenbereichsseiten ein noindex, nofollow einbauen?
    Oder den gesamten Kundenbereich per .htaccess + .htpasswd schützen?
    Das ist dann halt für die Kunden unbequem :(

    Wer zuerst "Datenschutz" sagt, hat verloren.

  • Jep, htaccess kannste knicken. Das ist nicht nur für die Kunden unbequem, sondern auch für mich, denn ich muss dann ja ständig neue Zugänge einrichten.

    "Im Header der Kundenbereichsseiten ein noindex, nofollow einbauen?"
    Das geht ja leider nicht, da Google die eigentliche Unterseite ja gar nicht zu Gesicht bekommt.

    1. Zugriff auf Unterseite
    2. Prüfung auf Login
    3a. Wenn Login vorhanden, dann anzeigen (für angemeldete Nutzer)
    3b. Wenn Login fehlt, dann zum Formular weiterleiten (für nicht angemeldete Nutzer)

    Google geht also auch den Weg von 3b und sieht den Inhalt der Unterseite nicht, damit auch kein "noindex, nofollow".

    Wenn ein Mensch nicht um dich kämpft, hat er nur gewartet, dass du gehst. ;(

  • Wird bei 3b per 301 oder 302 umgeleitet? Sendet die Loginseite ein noindex?

    Meine Empfehlung:

    den Bereich nicht per robots.txt sperren, sondern Logincheck machen und falls kein Login da ist, per 301 auf die Loginseite schicken, die einen noindex im Meta oder per Header sendet.

    Dann wirst Du die los.

  • Es wird per 301 weitergeleitet:

    Code
    header ('HTTP/1.0 301 Moved Permanently');
    header ('Location: /kb-login.php?mod=formular');
    exit;

    Ja, die Loginseite (das Formular) sendet einen noindex.

    "die einen noindex im Meta oder per Header sendet."
    Ok, ein noindex per HTTP-Header wäre noch eine Möglichkeit, die ich versuchen könnte. Hatte das nur schon mal an anderer Stelle und der Erfolg war gleich null. Einen Versuch ist es aber wert.

    Wenn ein Mensch nicht um dich kämpft, hat er nur gewartet, dass du gehst. ;(

  • Ansonsten eben den wichtigsten Grundsatz beachten:

    Wenn ein Bereich oder eine Unterseite per Robots.txt Disallow ausgeschlossen wurde, wird vom Bot eine eventuell dort bestehende "noindex" Information (egal ob durch X-Header oder Meta Angabe) nicht erreicht und daher nicht beachtet.

    Stattdessen wird der Anker des gebenden Links als Titel verwendet und der Robots-Text Hinweis als Description verwendet.

    D.h.: Um Seiten aus dem Index zu bekommen, hilft nur noindex, aber dann dürfen sie per Robots.txt nicht gesperrt sein.

  • Ja wie, zählt das auch beim HTTP-Header? Meta war klar, aber per HTTP? Wenn dem so ist, dann erklärt das auch, warum das bei mir damals nicht funktionierte.

    Bedeutet dann aber auch, dass die Config auf dem Server angepasst werden muss, denn die robots.txt ist ja nicht nur für die Unterseiten da, sondern auch für Bilder, Scripte etc... Also dann per Config den HTTP x-robots senden.

    Google nervt und verursacht nur unnötige Arbeit !

    Wenn ein Mensch nicht um dich kämpft, hat er nur gewartet, dass du gehst. ;(

  • Ja, zählt auch für X-Header Angaben.

    Warum?

    Weil erst über die Robots.txt Direktive überhaupt geprüft wird, ob zu der URL ein Reuest erfolgen soll/darf. Wenn per Robots.txt gesperrt, dann kein Request und demnach auch kein Auslesen der X-Header.

    Zitat


    Google nervt und verursacht nur unnötige Arbeit !

    So siehts aus.

    Früher war es schöner, da hat Google per Robots.txt gesperrte Seiten einfach vom Index ausgeschlossen. War viel angenehmer und sinnvoller.

  • Zitat

    Wenn ein Bereich oder eine Unterseite per Robots.txt Disallow ausgeschlossen wurde, wird vom Bot eine eventuell dort bestehende "noindex" Information (egal ob durch X-Header oder Meta Angabe) nicht erreicht und daher nicht beachtet.

    Stattdessen wird der Anker des gebenden Links als Titel verwendet und der Robots-Text Hinweis als Description verwendet.

    irgendwie kommt der Schalk da bei mir durch

    Frei nach Dieter Nuhr
    Das Internet ist zum Lebensraum der Dauerbeleidigten geworden, die immer einen Grund finden, anderen irgendetwas vorzuwerfen, um sich selbst moralisch zu erhöhen.

  • Wobei ich das bei mir nicht bestätigen kann. Titel bei Google ist überall die Url, wobei die Kunden selbst die Seite mit "Kalender", "Admin, "Belegungsplan" etc. verlinkt haben.

    Wenn ein Mensch nicht um dich kämpft, hat er nur gewartet, dass du gehst. ;(

  • Ok, ich hatte es bei internen Links gesehen, da hat sich Google den Navigationspunkt als Title gezogen. Kann gut sein, dass es bei externen Links zu Dir nicht klappt, gerade um das Problem der Idee von guppy zu umgehen ;)