Google Indizierung von Seiten verhindern

Synonym

So, ich stehe hier anscheinend vor einem für mich unlösbarem Problem, dank der Google Datensammelwut. Ich habe hier einen Kundenbereich und möchte nicht, dass irgendwelche URLs von dort im Index erscheinen.

Leider funktioniert das nicht und es sind dennoch welche zu finden, da einige Kunden Direktlinks dort hin gesetzt haben und Google diesen natürlich folgt.

Nur das Problem ist jetzt, dass ich die aus dem Index raus haben will und auch nie wieder dort sehen will. Nur wie?

Meine Loginseite, auf die Google offiziell zugreifen kann, habe ich mit noindex versehen. Das funktioniert auch. Google beachtet es und nimmt sie nicht auf.

Das Problem sind aber die Unterseiten, auf die Google über irgendwelche Links kommt. Google folgt also dem Link, mein System prüft den Login und stellt fest, dass er fehlt. Leitet dann weiter an die Loginseite. Google nimmt dennoch die Unterseite in den Index auf!

Versehen ist alles außer dem Loginformular per robots.txt mit "Disallow: /".

Die robots.txt verhindert nun aber nicht die Aufnahme, denn im Index sind sie mit "Aufgrund der robots.txt dieser Website ist keine Beschreibung für dieses Ergebnis verfügbar. Weitere Informationen".

Einen "noindex" kann ich an der Stelle gar nicht setzten, da Google auf Grund des fehlenden Logins ja gar nicht auf die Seite selbst kommt.

So, wie bekomme ich es nun sicher, zuverlässig und ohne ständige Anpassungen hin, dass Google definitiv die Finger von den Seiten lässt ??

catcat

Im Header der Kundenbereichsseiten ein noindex, nofollow einbauen?
Oder den gesamten Kundenbereich per .htaccess + .htpasswd schützen?
Das ist dann halt für die Kunden unbequem

Synonym

Jep, htaccess kannste knicken. Das ist nicht nur für die Kunden unbequem, sondern auch für mich, denn ich muss dann ja ständig neue Zugänge einrichten.

"Im Header der Kundenbereichsseiten ein noindex, nofollow einbauen?"
Das geht ja leider nicht, da Google die eigentliche Unterseite ja gar nicht zu Gesicht bekommt.

1. Zugriff auf Unterseite
2. Prüfung auf Login
3a. Wenn Login vorhanden, dann anzeigen (für angemeldete Nutzer)
3b. Wenn Login fehlt, dann zum Formular weiterleiten (für nicht angemeldete Nutzer)

Google geht also auch den Weg von 3b und sieht den Inhalt der Unterseite nicht, damit auch kein "noindex, nofollow".

chris21

Wird bei 3b per 301 oder 302 umgeleitet? Sendet die Loginseite ein noindex?

Meine Empfehlung:

den Bereich nicht per robots.txt sperren, sondern Logincheck machen und falls kein Login da ist, per 301 auf die Loginseite schicken, die einen noindex im Meta oder per Header sendet.

Dann wirst Du die los.

Synonym

Es wird per 301 weitergeleitet:

Code

header ('HTTP/1.0 301 Moved Permanently');
header ('Location: /kb-login.php?mod=formular');
exit;

Ja, die Loginseite (das Formular) sendet einen noindex.

"die einen noindex im Meta oder per Header sendet."
Ok, ein noindex per HTTP-Header wäre noch eine Möglichkeit, die ich versuchen könnte. Hatte das nur schon mal an anderer Stelle und der Erfolg war gleich null. Einen Versuch ist es aber wert.

chris21

Ansonsten eben den wichtigsten Grundsatz beachten:

Wenn ein Bereich oder eine Unterseite per Robots.txt Disallow ausgeschlossen wurde, wird vom Bot eine eventuell dort bestehende "noindex" Information (egal ob durch X-Header oder Meta Angabe) nicht erreicht und daher nicht beachtet.

Stattdessen wird der Anker des gebenden Links als Titel verwendet und der Robots-Text Hinweis als Description verwendet.

D.h.: Um Seiten aus dem Index zu bekommen, hilft nur noindex, aber dann dürfen sie per Robots.txt nicht gesperrt sein.

Synonym

Ja wie, zählt das auch beim HTTP-Header? Meta war klar, aber per HTTP? Wenn dem so ist, dann erklärt das auch, warum das bei mir damals nicht funktionierte.

Bedeutet dann aber auch, dass die Config auf dem Server angepasst werden muss, denn die robots.txt ist ja nicht nur für die Unterseiten da, sondern auch für Bilder, Scripte etc... Also dann per Config den HTTP x-robots senden.

Google nervt und verursacht nur unnötige Arbeit !

chris21

Ja, zählt auch für X-Header Angaben.

Warum?

Weil erst über die Robots.txt Direktive überhaupt geprüft wird, ob zu der URL ein Reuest erfolgen soll/darf. Wenn per Robots.txt gesperrt, dann kein Request und demnach auch kein Auslesen der X-Header.

Zitat

Google nervt und verursacht nur unnötige Arbeit !

So siehts aus.

Früher war es schöner, da hat Google per Robots.txt gesperrte Seiten einfach vom Index ausgeschlossen. War viel angenehmer und sinnvoller.

guppy

Zitat

Wenn ein Bereich oder eine Unterseite per Robots.txt Disallow ausgeschlossen wurde, wird vom Bot eine eventuell dort bestehende "noindex" Information (egal ob durch X-Header oder Meta Angabe) nicht erreicht und daher nicht beachtet.

Stattdessen wird der Anker des gebenden Links als Titel verwendet und der Robots-Text Hinweis als Description verwendet.

irgendwie kommt der Schalk da bei mir durch

Synonym

Wobei ich das bei mir nicht bestätigen kann. Titel bei Google ist überall die Url, wobei die Kunden selbst die Seite mit "Kalender", "Admin, "Belegungsplan" etc. verlinkt haben.

chris21

Ok, ich hatte es bei internen Links gesehen, da hat sich Google den Navigationspunkt als Title gezogen. Kann gut sein, dass es bei externen Links zu Dir nicht klappt, gerade um das Problem der Idee von guppy zu umgehen