richtige robots.txt

KAW

Hallo,

wieder ein Fachthema für Googleexperten

Gehe ich recht in der Annahme, dass die Links einer in der robots.txt gesperrten Unterseiten Unterseite verfolgt werden?

Frank-L

Wirken tun die Links nicht, folgen würde ich denen trotzdem, wäre ich ein Bot von google.

KAW

mir geht es um die interne Verlinkung.
Ich möchte alle Kategorien über die rbots.txt aussperren.
Die Beitragsseiten sind direkt, aber eben auch über die Kategorien verlinkt.

Margin

"nicht folgen" = "nofollow" Attribut in den Metas
ansonsten: *** Link veraltet ***
für ganz hartnäckige kannste es auch in der htaccess sperren

Rudolf Ratlos

*** Link veraltet ***

wenn Du wenigstens Deine Fragen mal sorgfältiger formulieren würdest ...

Oder anders: Gib Dir Mühe mit der Frage,
dann macht sich jemand vielleicht auch die Mühe einer Antwort.

Synonym

Zitat

dass die Links einer in der robots.txt gesperrten Unterseiten Unterseite verfolgt werden?

Nein, werden sie nicht. Google hält sich in aller Regel an die robots.txt und greift auf die Unterseite gar nicht zu. Folglich werden die dort enthaltenen Links nicht verfolgt, da gar nicht bekannt.

Margin

Meines Wissens funktioniert das nur solange, wie niemand auf die freundliche Idee kommt, einen Links zu setzen.

Frank-L

Zitat von Margin

Meines Wissens funktioniert das nur solange, wie niemand auf die freundliche Idee kommt, einen Links zu setzen.

Ja die URL wird indexiert und als Titel wird der Linktext genutzt, der Cache ist aber leer.

Synonym

Jein. In dem Fall folgt die Aufnahme in den Index, aber ohne Inhalt, sondern mit dem Satz, dass "der Zugriff durch die robots.txt blockiert wurde". Also auch dann wird nicht gelesen und nicht verfolgt. Zumindest sagt Google das, wobei ich dem eigentlich zustimmen kann. Habe den Spider noch nie auf einer gesperrten Seite entdeckt.

Margin

*** Link veraltet ***

Synonym

Genau das Verhalten meine ich und dort steht es ähnlich wie oben geschrieben:

Zitat

dass die entsprechende URL passend zum gesuchten Linktext in den Suchergebnissen auftauchen kann. (Der Inhalt der Seite ist Google immer noch nicht bekannt, da dieser nicht gecrawlt und indexiert wurde!)

Google nimmt die Seite auf, aber ohne Daten von der Seite selbst. Treffer resultieren rein aus den Linktexten. Kannste selbst testen. Mach eine Seite mit Thema A und sperre die. Setze Links drauf mit einem ganz anderen Thema B und die Seite wird mit den Linktexten bzw. deren Relevanz gefunden werden, nicht aber mit dem Thema des Inhalts selber.

Die robots.txt ist ja nicht dazu gedacht, Suchergebnisse zu verhindern, sondern um den Zugriff auf die Seite zu untersagen. Wobei das, ohne Links auf die Seite, auch zu den verhinderten Suchergebnissen führt.

Edit: Post von Lunte hatte ich vorhin übersehen.

KAW

Danke für die Antworten.

Zitat von Rudolf Ratlos

*** Link veraltet ***

wenn Du wenigstens Deine Fragen mal sorgfältiger formulieren würdest ...

Oder anders: Gib Dir Mühe mit der Frage,
dann macht sich jemand vielleicht auch die Mühe einer Antwort.

Was ist an meiner Frage nicht zu verstehen?
Alle anderen haben sie doch auch verstanden.

Synonym

Margin
Sieht man bei mir im Kundenbereich sehr schön. Da sind Links im Index, weil Kunden Direktlinks zu bestimmten Bereichen gesetzt haben. Diese URLs sind im Index. Genau dies spricht auch dafür (ohne in Logs zu sehen), dass Google die Seite nie aufgerufen hat, denn hätte Google das getan, dann hätte er bemerkt, dass da entweder ein 301 oder ein 404 kommt, da Google keinen Login besitzt.

Margin

Zitat

Margin

KAW hatte gefragt

Synonym

ich weiß

KAW

nach euren Antworten bin ich nun am überlegen, so ein SEO Plugin zu installieren, um dann in head noindex,follow eingeben zu können oder die interne Verlinkung über andere Beitragsseiten zu erhöhen.

Margin

Mir ist nach wie vor nicht wirklich klar, welchen Zielzustand Du in letzter Konsequenz erreichen willst.
Soll indexiert werden?
Soll nicht indexiert werden?
Soll nur der Link verfolgt werden?
...

KAW

Das Ziel ist es, DC zu vermeiden.
Jetzt wird es aber lang, damit Rudi Ratlos die Frage auch versteht.

Ich habe ja ein paar Dinge am Aufbau verändert.

Ich habe das rechte Menü und auch ein weiteres Menü im Footer von Hand gemacht und gleich auch Beitragsseiten verlinkt, die in einer Mutterkategorie sind.
Da diese Einstiegsbeitragsseiten nicht sehr viel Content haben, würden die Kategorieseiten ( trotz Kurzansicht ) DC erzeugen.
Weitere Beiträge sollen in diese Mutterkategorien auch nicht rein.
Dafür habe ich einen code in die funktions.php eigebunden, weil sonst alle Beiträge aus den darunter liegenden Kategorien auch in der Mutterkategorie in der Kurzfassung stehen würden.

Genauso ist es in der ersten und zweiten Ebene der Unterkategorien. Da stehen dann auch nur je eine Beitragsseite als Einleitungen und Links zu den Beiträgen noch darunter liegendender Kategorien.

Die ganzen Kategorieseiten sind also, bis auf die letzte Unterkategorieebene, intern gar nicht verlinkt.
Nun ist es ja ein CMS und irgendwo werden bestimmt Links ( in den tags, bei der Suche oder auch von außen oder einer Sitemap ) zu den Kategorien und Unterkategorien sein.
Deshalb möchte ich alle Kategorien nicht im index haben, aber die interne Verlinkung nutzen lassen, wenn denn Google die Kategorieseiten findet.

Jetzt habe ich mir eben ein Plugin installiert, was alle Kategorien, Archiv, tags, die Suche auf noindex,follow im head gesetzt hat.

Eigentlich soweit ok, wie ich es möchte.
Da diese Angabe aber so aussieht:
<meta name="robots" content="noindex, follow"/>
und nur in den Seiten erscheint, dieausgeschlossen werden sollen, habe ich einen weiteren tag mit
<meta name="robots" content="noarchive"/>
reingesetzt.

Jetzt die Frage.

Wie reagiert Google bei zwei solchen Anweisungen?

Frank-L

Hatte auch ein wenig mit dem Noindex gespielt und meine persönliche Feststellung war das dann eh alles weitere wirkungslos war. Da steht zwar follow drin, aber irgendwas vererbt wird da nix, die dahinter liegenden Seiten kommen nicht einmal in den Index.

Ich für mich hatte es bei Wordpress so, das ich die Artikel immer mit so einem "Break"

Code

<-- more --> oder so..

nach 200-300 Zeichen versehen hatte, welches als Snippet dann in den Kategorien kommt und eben nicht der komplette Text. Alternativ kann man ja auch etwas Anderes für diesen Vorschautext schreiben.
Auf Index hatte ich aber nur einen Typus der Archive gesetzt. Die Tags, Datumsarchive und das ganze andere Zeug auf Noindex. Einzig die richtigen Kategorien liefen bei mir über index/follow.

KAW

Ich lasse es jetzt mal so.
Die Kategorien stehen ja auf noindex,follow
Ob Google mit dem zweiten tag auch was anfangen kann, sehe ich bei den Serps, ob da ein Cache vorhanden ist oder nicht.
Muss ich halt ein paar Tage warten.