google mag meine "robots.txt" nicht?!

se0815

Hallo,

Ich habe meine Joomla Seite komplett neu machen lassen (altes Template1.5) wo bei Google sehr gut indexiert wurde.
Jetzt mit Joomla 2.5 habe ich große Probleme daß die Seiten gelistet werden, um nicht zu sagen daß ich ganz verschwunden bin:cry:

Der Umbau war vor zirka gut 4 Wochen fertig aber laut Google Webmaster-Tools ist die tobots.txt nicht in Ordnung.

Google sagt:

Zitat

Der Googlebot konnte nicht auf Ihre "robots.txt"-Datei zugreifen und hat das Crawling Ihrer Website vorsichtshalber verschoben, damit auf keinen Fall nicht zugelassene Seiten gecrawlt werden. *** Link veraltet ***

Ich habe die txt Datei dann mal mit einem Tool "robots-checker" überprüfen lassen wo jedoch kein Fehler gefunden wird "No errors found in this robots.txt file"

Code

# If the Joomla site is installed within a folder such as at
# e.g. www.example.com/joomla/ the robots.txt file MUST be
# moved to the site root at e.g. www.example.com/robots.txt
# AND the joomla folder name MUST be prefixed to the disallowed
# path, e.g. the Disallow rule for the /administrator/ folder
# MUST be changed to read Disallow: /joomla/administrator/
#
# For more information about the robots.txt standard, see:
# https://beispiel.rocks/beispiel.rocks/www.robotstxt.org/orig.html
#
# For syntax checking, see:
# https://beispiel.rocks/beispiel.rocks/www.sxw.org.uk/computing/robots/check.html


User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/

Alles anzeigen

Kann es sein daß wegen der3 Sprachiger Seiten (fr-de-en) diesen Fehler angezeigt wird, oder warum will Google nit?

Synonym

Auch hier die Frage, auch wenn es bei anderen immer wie Spam aussieht, wie ist die URL?

Ansonsten vorab. Die robots.txt liegt immer im Root. Testen kannst Du die auch direkt in den WMT. Eventuell auch beim Punkt "Abruf wie durch Google-Bot" und dann mal das Ergebnis posten.

Denkbar wäre eventuell, dass die robots.txt auf Grund der Sprachversionen keinen 200 oder 404 sendet, sondern einen 302 oder 301.

Zitat

Wenn Ihre "robots.txt"-Datei vorhanden, jedoch nicht erreichbar ist – anders gesagt, wenn die Datei keinen HTTP-Statuscode 200 oder 404 zurückgibt

P.S. Ach ja. Ich denke, die Sprachversion wird über die HTACCESS geregelt, also die bitte auch mal posten.

se0815

So hier der "Abruf wie durch Google" (ich habe nur die ersten Zeilen eingefügt, wenn noch weitere notwendig sind werde ich die auch kopieren.

Dies ist die Methode, mit der der Googlebot die Seite abgerufen hat.

URL: *** Link veraltet *** (die ","komas bitte entfernen)

Datum: Montag, 4. März 2013 10:43:43 GMT-08:00
Googlebot-Typ: Web
Download-Zeit (in Millisekunden): 744

HTML

HTTP/1.1 200 OK
Date: Mon, 04 Mar 2013 18:43:43 GMT
Server: Apache
P3P: CP="NOI ADM DEV PSAi COM NAV OUR OTRo STP IND DEM"
Content-Encoding: gzip
X-Content-Encoded-By: Joomla! 2.5
Cache-Control: no-cache
Pragma: no-cache
Set-Cookie: 6ca86edfc103b981f29ddce76298b256=baaac756ccc0bb4f6a5c9c0f4e42e8f9; path=/
Connection: close
Transfer-Encoding: chunked
Content-Type: text/html; charset=utf-8


<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://beispiel.rocks/beispiel.rocks/www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="https://beispiel.rocks/beispiel.rocks/www.w3.org/1999/xhtml" xml:lang="de-de" lang="de-de" dir="ltr" >

Alles anzeigen

Ein weiteres Problem habe ich obenstehend in letzter Zeile bemerkt:

xml:lang="de-de" lang="de-de" dir="ltr" > <head>

kann es sein daß Google ein Problem mit der lang=de-de auf einer Französischen Seite hat?

Und hier die .htaccess:

Apache Configuration

##
# @package        Joomla
# @copyright    Copyright (C) 2005 - 2012 Open Source Matters. All rights reserved.
# @license        GNU General Public License version 2 or later; see LICENSE.txt
##


##
# READ THIS COMPLETELY IF YOU CHOOSE TO USE THIS FILE!
#
# The line just below this section: 'Options +FollowSymLinks' may cause problems
# with some server configurations.  It is required for use of mod_rewrite, but may already
# be set by your server administrator in a way that dissallows changing it in
# your .htaccess file.  If using it causes your server to error out, comment it out (add # to
# beginning of line), reload your site in your browser and test your sef url's.  If they work,
# it has been set by your server administrator and you do not need it set here.
##


## Can be commented out if causes errors, see notes above.
Options +FollowSymLinks


## Mod_rewrite in use.


RewriteEngine On
## Begin - Rewrite rules to block out some common exploits.
# If you experience problems on your site block out the operations listed below
# This attempts to block the most common type of exploit `attempts` to Joomla!
#
# Block out any script trying to base64_encode data within the URL.
RewriteCond %{QUERY_STRING} base64_encode[^(]*\([^)]*\) [OR]
# Block out any script that includes a <script> tag in URL.
RewriteCond %{QUERY_STRING} (<|%3C)([^s]*s)+cript.*(>|%3E) [NC,OR]
# Block out any script trying to set a PHP GLOBALS variable via URL.
RewriteCond %{QUERY_STRING} GLOBALS(=|\[|\%[0-9A-Z]{0,2}) [OR]
# Block out any script trying to modify a _REQUEST variable via URL.
RewriteCond %{QUERY_STRING} _REQUEST(=|\[|\%[0-9A-Z]{0,2})
# Return 403 Forbidden header and show the content of the root homepage
RewriteRule .* index.php [F]
#
## End - Rewrite rules to block out some common exploits.


## Begin - Custom redirects
#
# If you need to redirect some pages, or set a canonical non-www to
# www redirect (or vice versa), place that code here. Ensure those
# redirects use the correct RewriteRule syntax and the [R=301,L] flags.
#
## End - Custom redirects


##
# Uncomment following line if your webserver's URL
# is not directly related to physical file paths.
# Update Your Joomla! Directory (just / for root).
##


# RewriteBase /


## Begin - Joomla! core SEF Section.
#
RewriteRule .* - [E=HTTP_AUTHORIZATION:%{HTTP:Authorization}]
#
# If the requested path and file is not /index.php and the request
# has not already been internally rewritten to the index.php script
RewriteCond %{REQUEST_URI} !^/index\.php
# and the request is for something within the component folder,
# or for the site root, or for an extensionless URL, or the
# requested URL ends with one of the listed extensions
RewriteCond %{REQUEST_URI} /component/|(/[^.]*|\.(php|html?|feed|pdf|vcf|raw))$ [NC]
# and the requested path and file doesn't directly match a physical file
RewriteCond %{REQUEST_FILENAME} !-f
# and the requested path and file doesn't directly match a physical folder
RewriteCond %{REQUEST_FILENAME} !-d
# internally rewrite the request to the index.php script
RewriteRule .* index.php [L]
#
## End - Joomla! core SEF Section.

Alles anzeigen

Synonym

Äm ja. Ich meinte mit dem "Abruf wie durch Google-Bot" den Abruf der robots.txt. Das was Du da nun hast ist die Startseite, oder?

Zitat

kann es sein daß Google ein Problem mit der lang=de-de auf einer Französischen Seite hat?

Könnte eventuell ein ganz kleines Problem sein, aber hat mit der jetzigen Geschichte gar nichts zu tun. Im Gegenteil. Bei der robots.txt kommen diese ganzen Angaben gar nicht.

HTML

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://beispiel.rocks/beispiel.rocks/www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="https://beispiel.rocks/beispiel.rocks/www.w3.org/1999/xhtml" xml:lang="de-de" lang="de-de" dir="ltr" >

Daher: Das ist keine robots.txt die Du da abfragst, sondern eine html-Seite.

Synonym

Allerdings möchte ich nun auch einen Fehler bei Google nicht ausschließen, denn eben habe ich meine eigene getestet und bekomme als Antwort:

Zitat

Die Seite konnte nicht gecrawlt werden, da sie durch die neueste vom Googlebot heruntergeladene "robots.txt"-Datei blockiert wird. Falls Sie die "robots.txt"-Datei vor Kurzem aktualisiert haben, beachten Sie, dass es bis zu zwei Tage dauern kann, bis die Aktualisierung wirksam wird. Weitere Informationen finden Sie im Hilfeartikel zu "robots.txt".

Der Test unter "Blockierte URLs" sagt dann aber wieder "erfolgreich".

Synonym

Nochmal ich....

Etwas habe ich gefunden, keine Ahnung ob das was ausmacht.

Das Ding heißt nicht "User-agent", sondern "User-Agent", also mit einem großen A

se0815

Sorry, ich bin super froh daß du mir weiterhilfst, und es ist mir peinlich zu sagen daß ich diesen Google-Bot einfach nicht finde:wall:
Google bringt mich auch nicht weiter!

...wenn du dann schon dabei bist dann sage mir auch noch bitte wo ich den User-agent finde :floet:

Edit:Verstanden;) das war der Google-bot, der zeigt mir die html an, ich kann diese dann an den Index senden.

Synonym

In den WMT gibt es den Bereich "Status". In dem Bereich findest Du zwei Punkte die interessant sind.

Zum einen den Punkt "Blockierte URLs". Unter diesem Punkt zeigt Dir das WMT oben im Feld die aktuell geladene robots.txt an. Unten drunter ist ein Feld mit der Überschrift "URLs Geben Sie die URLs und User-Agents für den Test an. ". Dort kannst Du eigene URLs Deiner Seite eintragen. Unten dann auf den Button "Test" klicken. Das WMT zeigt Dir dann, ob die abgefragten URLs von der robots.txt gesperrt sind oder nicht. Wenn die robots.txt Fehler hat, dann zeigt Google die unten als Ergebnis auch an. Könnte z.B. so aussehen:

Code

URL: https://beispiel.rocks/beispiel.rocks/www.domain.de/
Googlebot: Zugelassen. Als Verzeichnis erkannt; bestimmte Dateien weisen eventuell unterschiedliche Einschränkungen auf.

Und der zweite Punkt ist der "Abruf wie durch Google" (nicht Google-Bot, hatte mich da vertippt, ist aber das gleiche). Oben in der Adressleiste einfach den Pfad eingeben, in Deinem Fall z.B. die robots.txt. Dann auf "Abrufen" klicken und warten. Unten in der Liste erscheint dann der Abruf, wenn er fertig ist. Rechts bei "Abrufstatus" kannst Du dann die Details ansehen.

Als Ergebnis müsste was in der Art kommen:

HTTP

Abruf wie durch Google
Dies ist die Methode, mit der der Googlebot die Seite abgerufen hat.
URL: [B]https://beispiel.rocks/beispiel.rocks/www.domain.de/robots.txt[/B]
Datum: Montag, 4. März 2013 22:10:30 GMT-08:00
Googlebot-Typ: Web
Download-Zeit (in Millisekunden): 213


HTTP/1.1 200 OK
Date: Tue, 05 Mar 2013 06:10:30 GMT
Server: Apache
Last-Modified: Mon, 04 Mar 2013 19:23:36 GMT
ETag: "5064192-382-4d71e4b1c9e00"
Accept-Ranges: bytes
Cache-Control: max-age=0, public, must-revalidate, proxy-revalidate
Expires: Tue, 05 Mar 2013 06:10:30 GMT
Vary: Accept-Encoding
Content-Encoding: gzip
Content-Length: 344
Keep-Alive: timeout=5, max=1000
Connection: Keep-Alive
Content-Type: text/plain; charset=UTF-8


User-Agent: *
Disallow: /reise-forum.html
Disallow: /js/
Disallow: /tests/
Disallow: /demo/
Disallow: /homepage/
Disallow: /hausprospekt/
Disallow: /hausprospekte/
Disallow: /kundengaestebuch/
Disallow: /service/
Disallow: /output-extern/
Disallow: /addons/socialbutton/js/

Alles anzeigen

Das mit dem "User-agent" ist in der robots.txt selbst. Ganz oben die erste Zeile nach den Kommentaren (User-agent: *). Das müsste "User-Agent" heißen, also "User-Agent: *".

Schau aber erst mal in den Blockierte URLs, ob dort die richtige und aktuelle robots.txt angezeigt wird. Kann sein, dass Google eine alte hat.

Aber wie gesagt, es kann auch ein Fehler bei Google sein, denn ich bekam gestern auch einen, heute jedoch nicht mehr und meine robots.txt ist identisch, die wurde schon Monate nichts mehr geändert.

se0815

Hallo,
Ok, den "User-Agent" habe ich geändert:up:

Code

# If the Joomla site is installed within a folder such as at
# e.g. www.example.com/joomla/ the robots.txt file MUST be
# moved to the site root at e.g. www.example.com/robots.txt
# AND the joomla folder name MUST be prefixed to the disallowed
# path, e.g. the Disallow rule for the /administrator/ folder
# MUST be changed to read Disallow: /joomla/administrator/
#
# For more information about the robots.txt standard, see:
# https://beispiel.rocks/beispiel.rocks/www.robotstxt.org/orig.html
#
# For syntax checking, see:
# https://beispiel.rocks/beispiel.rocks/www.sxw.org.uk/computing/robots/check.html


User-Agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/

Alles anzeigen

Die Startseite und die robots.txt wurden Erfolgreich getestet, und kann diese "An Index senden"
Unter Blockierten URL´s bekomme ich unter robots.txt 7 Blockierungen angezeigt kann diese aber nicht auswählen oder sichtbar machen, ist dies normal?

Synonym

Zitat

Unter Blockierten URL´s bekomme ich unter robots.txt 7 Blockierungen angezeigt kann diese aber nicht auswählen oder sichtbar machen, ist dies normal?

Ja, das ist normal, bei mir stehen da über 2.000. Das sind eben Seiten, die durch die robots.txt blockiert wurden. Wenn da aber ganz unten auf der Seite, nach dem Test, keine Fehler angezeigt werden, dann ist alles in Ordnung.

Margin

Ja, völlig normal. Musst Dich da auch nicht verrückt machen lassen, alles wo die nicht drankommen, ist natürlich erstmal ein Fehler, den der User da gemacht hat, damit kriegst Du vielleicht Panik und gibst die Datei doch frei. Bei mir geht es soweit, dass wir vor einer sogar seit Jahr und Tag zusätzlich 'ne htaccess haben, um sie wirklich dicht zu machen. In fetten roten Lettern: FEHLER. Der Witz, ich habe genau zwei Möglichkeiten, das Dingen zu korrigieren oder mit dem Fehler zu leben.

Die spinnen die Römer

se0815

lol, dann wäre das mal ok.

Noch was anderes Ich hatte in der .htaccess datei die zeilen für kein doppelter Inhalt (dublicate content) eingefügt:

Apache Configuration

[FONT=&amp]RewriteCond %{HTTP_HOST} !^www\.ihre-domain\.de$ [NC]
RewriteRule ^(.*)$ *** Link veraltet *** [R=301,L][/FONT]

dessen ich wieder entfernt hatte da ich probleme dadurch vermutete.
Jetzt habe ich im WMT unter Konfiguration-->Einstellungen die Möglichkeit gefunden: "Bevorzugte Domain" mit "www anzeigen"

Wenn ich dieses Auswähle erhalte ich folgende Nachricht:

Zitat

Im Verlauf der Festlegung einer bevorzugten Domain wird zunächst überprüft, ob Sie der Eigentümer von *** Link veraltet *** sind. Bestätigen Sie *** Link veraltet ***

Jedoch ist eine Bestätigung nicht möglich:down: wie kann ich diese bestätigen, und soll ich die .htaccess wieder mit der diblicate content wieder einfügen?

Margin

Also htaccess ist nicht meine Baustelle, dafür gibts Leute, die sich mit sowas auskennen (die das für mich erledigen ^^) Ich habe auf allen Domains sowohl die Weiterleitung auf ohne-www laufen, als auch das Häkchen in den WMT bei "ohne-www". Hat noch nie Probleme gemacht.

Bestätigen kannste, mein ich, unter Konfiguration / Nutzer.

Alex07

geht auch automatisch, brauchst nicht bei google melden mit oder ohne www.
setz einfach den code in deine htaccess wieder ein und juut is..
bei google das zusätzlich zu melden ist überflüssig.
würd mich von google nicht verrückt machen lassen

Margin

Jep, ist überflüssig, hatte es aber mal so und mal so und dann hab ichs irgendwann mal über alle Domains egalisiert - der besseren Übersicht wegen. Ging mir nur um den Punkt, dass es sich eben NICHT beißt.

se0815

Ok, habe die .htaccess dann mal wieder angepasst, ich frage mich aber immer noch warum das nicht mit der Bestätigung funktioniert?
Die untere "Crawling-Geschwindigkeit" Funktion geht, nur bei der "Bevorzugten Domain" kommt dieser blöder Fehler.

An sich funktionierte die Robots ja dann schon seit immer.., dann weiß ich blöderweise immer noch nicht warum ich nicht "Gefunden" werde:(

se0815

[TABLE="class: report"]

[tr][td]

Line 14

[/td]

[TD="class: error"]User-Agent: *
Although commands are not case sensitive, we advise you to write exactly "User-agent", that is all lowercase except for the capitalized "U".[/TD]

[/tr]

[/TABLE]

Ich habe mit dem robots-Checker die Meldung erhalten, bist du sicher daß der User-Agent "A" Groß geschrieben werden soll?

Margin

Bei mir stehts auch überall so: "User-agent: *" und funktioniert seit Jahr und Tag.
*** Link veraltet ***

Aber grundsätzlich biste mit solchen Fragen bei Synonym richtig gut aufgehoben!

se0815

Ja Danke!, ich dachte nur weil mir der Checker jetzt diesen Hinweis gibt wobei vorher mit User-agent er mir alles Ok sagte.

Synonym

Zitat

Bei mir stehts auch überall so: "User-agent: *" und funktioniert seit Jahr und Tag.

Und bei mir überall User-Agent Daran sollte es aber nicht liegen, denn Google erkennt solche Dinge selbst. Richtige Fehler sehen anders aus, da bringt Google dann auch eine Parser-Warnung.

Von wem ist die Meldung wegen der Groß-/Kleinschreibung? Von Google? Wenn nicht, dann vergiss es. Du willst bei Google gefunden werden, also halte Dich an das, was Google empfiehlt oder eben auch bemängelt.

So, dann wären da noch die Punkte mit der "Bestätigung" und das "nicht zu finden sein"

Ich muss mich mich hier auch berichtigen. "agent" klein sollte doch stimmen. *** Link veraltet *** Aber wie gesagt, das ist nicht das Problem!