google mag meine "robots.txt" nicht?!

  • Hallo,

    Ich habe meine Joomla Seite komplett neu machen lassen (altes Template1.5) wo bei Google sehr gut indexiert wurde.
    Jetzt mit Joomla 2.5 habe ich große Probleme daß die Seiten gelistet werden, um nicht zu sagen daß ich ganz verschwunden bin:cry:

    Der Umbau war vor zirka gut 4 Wochen fertig aber laut Google Webmaster-Tools ist die tobots.txt nicht in Ordnung.

    Google sagt:

    Zitat

    Der Googlebot konnte nicht auf Ihre "robots.txt"-Datei zugreifen und hat das Crawling Ihrer Website vorsichtshalber verschoben, damit auf keinen Fall nicht zugelassene Seiten gecrawlt werden. *** Link veraltet ***

    Ich habe die txt Datei dann mal mit einem Tool "robots-checker" überprüfen lassen wo jedoch kein Fehler gefunden wird "No errors found in this robots.txt file"

    Kann es sein daß wegen der3 Sprachiger Seiten (fr-de-en) diesen Fehler angezeigt wird, oder warum will Google nit?

  • Auch hier die Frage, auch wenn es bei anderen immer wie Spam aussieht, wie ist die URL?

    Ansonsten vorab. Die robots.txt liegt immer im Root. Testen kannst Du die auch direkt in den WMT. Eventuell auch beim Punkt "Abruf wie durch Google-Bot" und dann mal das Ergebnis posten.

    Denkbar wäre eventuell, dass die robots.txt auf Grund der Sprachversionen keinen 200 oder 404 sendet, sondern einen 302 oder 301.

    Zitat

    Wenn Ihre "robots.txt"-Datei vorhanden, jedoch nicht erreichbar ist – anders gesagt, wenn die Datei keinen HTTP-Statuscode 200 oder 404 zurückgibt

    P.S. Ach ja. Ich denke, die Sprachversion wird über die HTACCESS geregelt, also die bitte auch mal posten.

    Wenn ein Mensch nicht um dich kämpft, hat er nur gewartet, dass du gehst. ;(

  • So hier der "Abruf wie durch Google" (ich habe nur die ersten Zeilen eingefügt, wenn noch weitere notwendig sind werde ich die auch kopieren.


    Dies ist die Methode, mit der der Googlebot die Seite abgerufen hat.

    URL: *** Link veraltet *** (die ","komas bitte entfernen)

    Datum: Montag, 4. März 2013 10:43:43 GMT-08:00
    Googlebot-Typ: Web
    Download-Zeit (in Millisekunden): 744

    Ein weiteres Problem habe ich obenstehend in letzter Zeile bemerkt:

    xml:lang="de-de" lang="de-de" dir="ltr" > <head>

    kann es sein daß Google ein Problem mit der lang=de-de auf einer Französischen Seite hat?


    Und hier die .htaccess:

  • Äm ja. Ich meinte mit dem "Abruf wie durch Google-Bot" den Abruf der robots.txt. Das was Du da nun hast ist die Startseite, oder?

    Zitat

    kann es sein daß Google ein Problem mit der lang=de-de auf einer Französischen Seite hat?


    Könnte eventuell ein ganz kleines Problem sein, aber hat mit der jetzigen Geschichte gar nichts zu tun. Im Gegenteil. Bei der robots.txt kommen diese ganzen Angaben gar nicht.

    HTML
    <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "https://beispiel.rocks/beispiel.rocks/www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
    <html xmlns="https://beispiel.rocks/beispiel.rocks/www.w3.org/1999/xhtml" xml:lang="de-de" lang="de-de" dir="ltr" >

    Daher: Das ist keine robots.txt die Du da abfragst, sondern eine html-Seite.

    Wenn ein Mensch nicht um dich kämpft, hat er nur gewartet, dass du gehst. ;(

  • Allerdings möchte ich nun auch einen Fehler bei Google nicht ausschließen, denn eben habe ich meine eigene getestet und bekomme als Antwort:

    Zitat

    Die Seite konnte nicht gecrawlt werden, da sie durch die neueste vom Googlebot heruntergeladene "robots.txt"-Datei blockiert wird. Falls Sie die "robots.txt"-Datei vor Kurzem aktualisiert haben, beachten Sie, dass es bis zu zwei Tage dauern kann, bis die Aktualisierung wirksam wird. Weitere Informationen finden Sie im Hilfeartikel zu "robots.txt".

    Der Test unter "Blockierte URLs" sagt dann aber wieder "erfolgreich".

    Wenn ein Mensch nicht um dich kämpft, hat er nur gewartet, dass du gehst. ;(

  • Nochmal ich....

    Etwas habe ich gefunden, keine Ahnung ob das was ausmacht.

    Das Ding heißt nicht "User-agent", sondern "User-Agent", also mit einem großen A

    Wenn ein Mensch nicht um dich kämpft, hat er nur gewartet, dass du gehst. ;(

  • Sorry, ich bin super froh daß du mir weiterhilfst, und es ist mir peinlich zu sagen daß ich diesen Google-Bot einfach nicht finde:wall:
    Google bringt mich auch nicht weiter!

    ...wenn du dann schon dabei bist dann sage mir auch noch bitte wo ich den User-agent finde :floet:


    Edit:Verstanden;) das war der Google-bot, der zeigt mir die html an, ich kann diese dann an den Index senden.

  • In den WMT gibt es den Bereich "Status". In dem Bereich findest Du zwei Punkte die interessant sind.

    Zum einen den Punkt "Blockierte URLs". Unter diesem Punkt zeigt Dir das WMT oben im Feld die aktuell geladene robots.txt an. Unten drunter ist ein Feld mit der Überschrift "URLs Geben Sie die URLs und User-Agents für den Test an. ". Dort kannst Du eigene URLs Deiner Seite eintragen. Unten dann auf den Button "Test" klicken. Das WMT zeigt Dir dann, ob die abgefragten URLs von der robots.txt gesperrt sind oder nicht. Wenn die robots.txt Fehler hat, dann zeigt Google die unten als Ergebnis auch an. Könnte z.B. so aussehen:

    Code
    URL: https://beispiel.rocks/beispiel.rocks/www.domain.de/
    Googlebot: Zugelassen. Als Verzeichnis erkannt; bestimmte Dateien weisen eventuell unterschiedliche Einschränkungen auf.

    Und der zweite Punkt ist der "Abruf wie durch Google" (nicht Google-Bot, hatte mich da vertippt, ist aber das gleiche). Oben in der Adressleiste einfach den Pfad eingeben, in Deinem Fall z.B. die robots.txt. Dann auf "Abrufen" klicken und warten. Unten in der Liste erscheint dann der Abruf, wenn er fertig ist. Rechts bei "Abrufstatus" kannst Du dann die Details ansehen.

    Als Ergebnis müsste was in der Art kommen:

    Das mit dem "User-agent" ist in der robots.txt selbst. Ganz oben die erste Zeile nach den Kommentaren (User-agent: *). Das müsste "User-Agent" heißen, also "User-Agent: *".

    Schau aber erst mal in den Blockierte URLs, ob dort die richtige und aktuelle robots.txt angezeigt wird. Kann sein, dass Google eine alte hat.

    Aber wie gesagt, es kann auch ein Fehler bei Google sein, denn ich bekam gestern auch einen, heute jedoch nicht mehr und meine robots.txt ist identisch, die wurde schon Monate nichts mehr geändert.

    Wenn ein Mensch nicht um dich kämpft, hat er nur gewartet, dass du gehst. ;(

  • Hallo,
    Ok, den "User-Agent" habe ich geändert:up:

    Die Startseite und die robots.txt wurden Erfolgreich getestet, und kann diese "An Index senden"
    Unter Blockierten URL´s bekomme ich unter robots.txt 7 Blockierungen angezeigt kann diese aber nicht auswählen oder sichtbar machen, ist dies normal?

  • Zitat

    Unter Blockierten URL´s bekomme ich unter robots.txt 7 Blockierungen angezeigt kann diese aber nicht auswählen oder sichtbar machen, ist dies normal?


    Ja, das ist normal, bei mir stehen da über 2.000. Das sind eben Seiten, die durch die robots.txt blockiert wurden. Wenn da aber ganz unten auf der Seite, nach dem Test, keine Fehler angezeigt werden, dann ist alles in Ordnung.

    Wenn ein Mensch nicht um dich kämpft, hat er nur gewartet, dass du gehst. ;(

  • Ja, völlig normal. Musst Dich da auch nicht verrückt machen lassen, alles wo die nicht drankommen, ist natürlich erstmal ein Fehler, den der User da gemacht hat, damit kriegst Du vielleicht Panik und gibst die Datei doch frei. Bei mir geht es soweit, dass wir vor einer sogar seit Jahr und Tag zusätzlich 'ne htaccess haben, um sie wirklich dicht zu machen. In fetten roten Lettern: FEHLER. Der Witz, ich habe genau zwei Möglichkeiten, das Dingen zu korrigieren oder mit dem Fehler zu leben.

    Die spinnen die Römer ^^

    Er war Jurist und auch sonst von mäßigem Verstand.

    (Volker Pispers)

  • lol, dann wäre das mal ok.

    Noch was anderes Ich hatte in der .htaccess datei die zeilen für kein doppelter Inhalt (dublicate content) eingefügt:

    Apache Configuration
    [FONT=&amp]RewriteCond %{HTTP_HOST} !^www\.ihre-domain\.de$ [NC]
    RewriteRule ^(.*)$ *** Link veraltet *** [R=301,L][/FONT]

    dessen ich wieder entfernt hatte da ich probleme dadurch vermutete.
    Jetzt habe ich im WMT unter Konfiguration-->Einstellungen die Möglichkeit gefunden: "Bevorzugte Domain" mit "www anzeigen"

    Wenn ich dieses Auswähle erhalte ich folgende Nachricht:

    Zitat

    Im Verlauf der Festlegung einer bevorzugten Domain wird zunächst überprüft, ob Sie der Eigentümer von *** Link veraltet *** sind. Bestätigen Sie *** Link veraltet ***

    Jedoch ist eine Bestätigung nicht möglich:down: wie kann ich diese bestätigen, und soll ich die .htaccess wieder mit der diblicate content wieder einfügen?

  • Also htaccess ist nicht meine Baustelle, dafür gibts Leute, die sich mit sowas auskennen (die das für mich erledigen ^^) Ich habe auf allen Domains sowohl die Weiterleitung auf ohne-www laufen, als auch das Häkchen in den WMT bei "ohne-www". Hat noch nie Probleme gemacht.

    Bestätigen kannste, mein ich, unter Konfiguration / Nutzer.

    Er war Jurist und auch sonst von mäßigem Verstand.

    (Volker Pispers)

  • geht auch automatisch, brauchst nicht bei google melden mit oder ohne www.
    setz einfach den code in deine htaccess wieder ein und juut is..
    bei google das zusätzlich zu melden ist überflüssig.
    würd mich von google nicht verrückt machen lassen

    wenn etwas möglich erscheint mach ich das, wenn das nicht klappt gehts ans unmögliche und ansonsten das undenkbare.

    - nun stolz rauchfrei - Ich denke also Bing ich!

    Support 24h Bereitschaft 0173 6107465 - NUR Für Kunden von SEO NW!

  • Jep, ist überflüssig, hatte es aber mal so und mal so und dann hab ichs irgendwann mal über alle Domains egalisiert - der besseren Übersicht wegen. Ging mir nur um den Punkt, dass es sich eben NICHT beißt.

    Er war Jurist und auch sonst von mäßigem Verstand.

    (Volker Pispers)

  • Ok, habe die .htaccess dann mal wieder angepasst, ich frage mich aber immer noch warum das nicht mit der Bestätigung funktioniert?
    Die untere "Crawling-Geschwindigkeit" Funktion geht, nur bei der "Bevorzugten Domain" kommt dieser blöder Fehler.

    An sich funktionierte die Robots ja dann schon seit immer.., dann weiß ich blöderweise immer noch nicht warum ich nicht "Gefunden" werde:(

  • [TABLE="class: report"]

    [tr][td]

    Line 14

    [/td]


    [TD="class: error"]User-Agent: *
    Although commands are not case sensitive, we advise you to write exactly "User-agent", that is all lowercase except for the capitalized "U".[/TD]

    [/tr]


    [/TABLE]

    Ich habe mit dem robots-Checker die Meldung erhalten, bist du sicher daß der User-Agent "A" Groß geschrieben werden soll?

  • Bei mir stehts auch überall so: "User-agent: *" und funktioniert seit Jahr und Tag.
    *** Link veraltet ***

    Aber grundsätzlich biste mit solchen Fragen bei Synonym richtig gut aufgehoben!

    Er war Jurist und auch sonst von mäßigem Verstand.

    (Volker Pispers)

  • Zitat

    Bei mir stehts auch überall so: "User-agent: *" und funktioniert seit Jahr und Tag.


    Und bei mir überall User-Agent :) Daran sollte es aber nicht liegen, denn Google erkennt solche Dinge selbst. Richtige Fehler sehen anders aus, da bringt Google dann auch eine Parser-Warnung.

    Von wem ist die Meldung wegen der Groß-/Kleinschreibung? Von Google? Wenn nicht, dann vergiss es. Du willst bei Google gefunden werden, also halte Dich an das, was Google empfiehlt oder eben auch bemängelt.

    So, dann wären da noch die Punkte mit der "Bestätigung" und das "nicht zu finden sein"

    Ich muss mich mich hier auch berichtigen. "agent" klein sollte doch stimmen. *** Link veraltet *** Aber wie gesagt, das ist nicht das Problem!

    Wenn ein Mensch nicht um dich kämpft, hat er nur gewartet, dass du gehst. ;(