Beiträge von chris21

    Da es nicht um den PHP Code sondern um die Seite: falls es rein um den Inhalt und nicht um HTML geht, würde ich mal die Copyscape API näher betrachten, ob sie nicht dafür umbiegbar wäre.

    Alternativ und auch für HTML nützlich: Mit wget zwei Kopien des Projekts scrapen und dann in der Konsole diff drauf.

    Dafür sollte man für die Automatisierung auch schnell ein Batch Skript schreiben können.

    Problematisch wird es nur, wenn es irgendwo zufällige dynamische Ausgaben im HTML gibt (Datum?, Adserver etc.)

    Oh: in dem Bereich werden auch Tools angeboten, z.B. HTML Match oder - opensource *** Link veraltet ***

    Tja, der Googlebot hatte irgendwann im Sommer letzten Jahres festgestellt, dass er inzw. alle zugänglichen URLs des Webs kennt, hatte zu wenig zu tun und wollte den Rest auch noch finden. URLs aus Klartext, JS-Links, POST Abfragen, etc.

    Bald wird er das auch durch haben und dann wird es viel schlimmer: Wörterbuchattacken vom Bot auf URLs und URL-Kombinationen :o

    Google hat vor einigen Monaten beschlossen, noch viel heftiger Deep Crawling zu betreiben als es früher schon der Fall war. Insbesondere auch POST Abfragen abzusenden, nicht nur GET Abfragen, die - wie auch bei Dir beobachtet - mit Parametern aufgefüllt wird.

    Ich habe auch 6-stellig durch Robots.txt eingeschränkte URLs allein aus einem Crawl über die Feiertage (25.-26.). Da die Robots.txt aber gut aufgebaut ist und für den Bot klar ist, welche Seiten er beachten muss und welche nicht, stört es mich nicht weiter, dass er nun meint, seinen "Durch Robots.txt eingeschränkt" Bereich soweit auffüllen zu müssen.

    Ebenso stören mich die Fehler bzw. 404 bei nicht existenten URLs, die meist durch Scraper SuMas oder ähnlichem Müll entstehen, nicht. Auch hier folgt Google der gleichen Deep Crawl Philosophie: Alles, was wie ein Link aussieht, wird gefolgt.

    Letzteres hat nur mein Usability Herz aufhorchen lassen, da ich nur allzugut jene 404 kenne, die entstehen, wenn Nutzer eigenständig Links per Mail verschicken und dabei der Link z.B. in einer Mail gebrochen wird, da die Nutzer kein < > verwenden. Oder sie kopieren nur den sichtbaren Teil aus dem URL Feld ihres Browsers, etc. Daher habe ich mich an einen Algo gemacht, der bei 404 erst "rät", ob er vll. die gewünschte URL aus der falschen herleiten kann und dann die Nutzer direkt per 301 weiterleitet. Für absolut dumme 404 gibt es weiter einen 404 (410 für Seiten, die mal existierten und gelöscht wurden).

    Ich würde also empfehlen, auf den Krams in den WMT nicht allzuviel zu geben. Stört nur, wenn man es nutzt, weil irgendwo auf der Seite tatsächlich Fehler sind und diese nun zwischen dem Rauschen schwerer zu finden sind. Ist aber auf der Seite alles richtig, die richtigen URLs im Index, die falschen per Robots.txt und noindex gesperrt, würde ich mir über die WMT Angaben keine Gedanken machen.

    Drupal wäre eine Standardantwort.

    MODx ist so gut, dass man es eigentlich gar nicht erwähnen sollte, um weiter seine eigenen Vorteile durch Nutzung von MODx zu haben :)

    Aber da Lorem es schon treffend beschrieben hat:

    ja, MODx bekommt ein fettes, fettes +1

    Und da Du neu einsteigst: gleich mit MODx Revolution beginnen und die Evolution liegen lassen. Aber bitte auch bedenken, dass man den ganzen Luxus von MODx dann besonders genießen kann, wenn man selbst auch etwas fit in der Entwicklung unter PHP ist. Und bitte nicht von den Rechtetemplates abschrecken lassen, da muss man einmal einen halben Tag etwas Müh reinstecken und danach läufts mit dem Verständnis.

    Ja, deswegen sehe ich den typischen SEO-Filter für harte Keys. Überoptimiert. Sieht man gut am dem günstig: die Kombi plus günstig ist nicht im Filter drin, da ist Google noch so nett, dort den Filter nicht anzuziehen (habe ich bei einem ähnlichen Projekt genauso: Produkt+Stadt im Filter, Produkt+Stadt+günstig nicht im Filter).

    Alle Abkürzungen richtig erkannt.

    Ich sehe die Probleme eben derzeit vor allem in der DL-Ratio von 80/20 - daher würde ich mich mit Links auf die Startseite generell zurückhalten und vll. sogar etwas zurückbauen. Stattdessen DLs aufbauen.

    Und bezüglich Ankertext sieht es genauso aus: Zuviele Links mit dem Key auf die Startseite. Aber ich würde nun nicht die spezielle Unterseite weiter puschen - Du willst ja mit der Startseite wieder nach vorne und nicht die spezielle Unterseite als Hindernis aufbauen.

    Also bloß nicht weiter das Key verwenden - der Variante mit dem Zusatz günstig dazugerechnet komme ich bei der Kombi auf über 25%.

    Du musst versuchen, Trust für das Projekt aufzubauen: d.h. möglichst natürliche Links, keine SEO-optimierten Links. Keine der harten Keys im Anker, viel "hier", viel URL (da gibt es wenigstens nen paar), viele DLs.

    Tante Edith zu Luntes Beitrag:

    Da hat er schon einiges. Zusammen mit dem harten Key in meinen Augen sogar schon zuviel. Daher lieber unauffällige Links.

    Sieht für mich sehr nach einem Filter auf die Startseite aus. Mit OffPage Hintergründen.

    OnPage ist allenfalls unglücklich, dass im Title Tag die Keyword Kombination nicht am Anfang steht (anders als auf der Unterseite).

    Aber OffPage ist die DL-Ratio viel zu gering und die Variation des Ankers imho viel zu heftig auf die Keyword Kombination ausgerichtet.

    Also lieber OffPage mit DLs und unaufälligen Ankern nachbuttern. Und keine BMP etc. dafür nutzen :)

    Aw: RegExp - Zeichen einfügen

    Ganz ehrlich? Ich würde da gar nicht mit einer RegEx vorgehen.

    Soll das durch ein Skript erfolgen? In PHP würde ich z.B,. einfach strpos mit Suche nach Leerzeichen und Offset von ca 1500 (durchschnittliches Wort 6 Zeichen inkl. Leerzeichen) rangehen.

    Aw: Suche neuen Rechner und bin frustriert

    Also auch bei externer Tastatur und externen Monitor brauchst Du für ein Notebook nicht unbedingt eine Dockingstation. Ist natürlich gemütlicher, aber zwingend erforderlich? Keinesfalls. Viele Monitore, die derzeit auf dem Markt sind, haben z.B. einen integrierten USB-Hub, damit sind Tastatur, Maus und Drucker etc. flugs angeschlossen und zw. Notebook und Monitor braucht es weiterhin nur ein Kabel. Dafür brauch mal keine Dockingstation.

    Natürlich fährt man mit einem guten Notebook in der Anschaffung etwas teurer als mit einem Desktop. Aber Stromverbrauch sollte man immer gegenrechnen, was Du aber anscheinend schon machst :)

    Bzgl. Desktop: Bei Dell gibt es derzeit den Vostro 260 MT in ordentlicher Ausstattung mit einem sehr guten Rabatt. Komme da mit 3 Jahre Vor Ort NBD (55 netto Aufpreis) auf ca. 550 inkl. Versand und MWSt. Weiß nicht, ob Du vorzugssteuerabzugsberechtigt bist.

    DELL E-Value Code D102619

    Tante Edith:

    Oh, bzgl. des verlinkten Notebooks: Ok, in der Preisklasse hatte ich bisher nicht überlegt. Würde es aber auch nicht empfehlen. Extrem schwache CPU und vollkommen veraltete, langsame HDD. Damit wird Arbeiten under Windows 7 auch bei 4GB RAM keinerlei Freude bereiten.

    Bei dem HP Notebook würde ich nicht nur eine Stromkostengegenrechnung starten sondern auch eine Arbeitskostengegenrechnung durch Warten auf Programmstarts etc. ... ;)

    Aw: Suche neuen Rechner und bin frustriert

    Desktop Rechner schlucken auch privat in meinen Augen zu viel Strom und sind oft zu laut. Wenn Du einen Rechner also zum Arbeiten benötigst und - wie ich - keinerlei Interesse an Computerspielen hast oder Videobearbeitung, dann würde ich alleinig auf folgende Faktoren achten:

    - Wie leise ist der Rechner?

    - Wieviel Strom schluckt er?

    - RAM & HDD: alle aktuellen Werte sollten da eigentlich reichen. Nett ist eine zusätzliche kleine SSD, über die Windows & Hauptprogramme laufen. Die eSATA o. ä. HDD dann als Datenspeicher.

    - CPU: aktuelle Intel CPU. Wenn nicht gerade Rendering o.ä. läuft, sollten 2 Kerne reichen. Egal ob 2 oder 4 Kerne, Turboboosting oder wie das heißt, wenn die Taktfrequenz eines Kerns erhöht wird, während die anderen idle sind, ist schon nett :)

    - Empfehlung: wenn es ein Desktop werden soll, dann mal Silentium Office Modelle bei Grey Computer checken (die mit Intel CPU).

    - wenn Du aber meinem Ratschlag folgen willst, ein Notebook als Rechner (weniger Strom, Hitzeentwicklung, Lautstärke) zu verwenden (unbedingt mit externer Monitor, der dem Arbeitsplatzschutzgesetzanforderungen entspricht, z. B. von Eizo oder NEC) und externer guter Tastatur mit gutem Anschlag (eigentlich nur die Cherry Klassiker), dann würde ich zu einem Thinkpad tendieren. Aber dann einem wirklichen Thinkpad aus der klassichen Businesslinie (z.B. T420 etc.), keine der R-,L- oder sonstigen Modelle, auch kein Edge. Die richtigen Thinkpad Business Modelle erkennt man meist auch gut an der Garantie, da sollte 3 Jahre Vor Ort NBD Standard sein.

    - egal ob es Thinkpad oder was anderes wird: bei Notebooks immer Business Modelle wählen! Das ist schließlich ein Arbeitsrechner, d.h., die Hardware muss verfügbar sein. Also Garantie mit Vor Ort und möglichst NBD (next business day) wählen. Gilt natürlich auch für Desktop Rechner, auch da Business Modelle wählen und die Garantie genau abwägen. Bin aber nicht sicher, ob z. B. Grey Computer auch Vor Ort etc. bietet.

    Aw: Schaumgebremst

    Schnipsel: sehe ich anders ;) Du meinst doch z.B. die GCT. Und ich rede auch von gestandenen Seiten. Und ich rede auch davon, dass ohne irgendwelche Veränderungen on- oder offpage die Seite mal für einige Zeit nach hinten gescheucht wird um dann genau wieder zu ihren alten Positionen zurückzukehren (oder besser, falls man in der Zwischenzeit offpage etwas getan hat).

    Aw: Schaumgebremst

    Kenn ich als seitenweite Bestrafung, die einen mächtigen Trafficdämpfer ausrollt und meist ein, zwei oder drei Monate anhält. Und sich dabei genau an Monatsfristen hält.

    Wichtige Keys abgedämpft, Kombis/Stemming und Variationen auch und daher nicht mehr spürbar, weil über die dann kein Traffic mehr kommt.

    Habe auch so eine, die gerade wieder exakt 2 Monate für alle Keys weg war und jetzt wieder auf den gleichen Positionen zu finden ist. Nichts verändert währenddessen.

    Sieht nach einer automatisch (=algorithmisch) vergebenen Bestrafung aus, die allerdings ausläuft. Sonst laufen normalerweise nur manuell vergebene Bestrafungen automatisch aus.

    Aw: Ich hasse Wochenenden

    Am "irischten" wäre wohl der Halbe Mond... und das ist noch nicht mal ein Irish Pub und versucht auch nicht, es zu sein :D

    Meisenfrei ist zu laut, wenn man auch nebenbei reden will :) sonst sehr gut

    Schnipsel: ich schick Dir mal ne Nummer

    Aw: Ich hasse Wochenenden

    Wie lange bist Du in der fröhlichen Hansestadt? Musst Du gleich wieder retour Richtung Osten? Sonst lass uns einen Abend mal auf ein gepflegtes Stout treffen. Z.B. im Irish Pub im Schnoor oder alternativ im Hegarty's.

    Aw: Google Pagination Next Prev

    Bei Ferienw... sollte schon Deine Startseite erscheinen - die ist ja auch nicht Teil einer Serie wie die 45 Seiten a 27 Objekte in Land xyz.

    Wichtig wird es nur für Ferienwohnung xyz, wo dann Seite 1 der Serie zur Kategorie Ferienwohnung xyz erscheinen soll.

    Die Startseite Deines Projektes dürfte nicht tangiert sein. Vor Einbau eines möglichen rel=start aber unbedingt überprüfen, wie dieses Attribut semantisch gesehen wird und vll. mal durchsuchen, ob es irgendwo auf Seiten verwendet wird und wie Google damit umgeht.

    Bisher hatte ich rel=start ähnlich wie rel=home verwendet. Bin also auch nicht sicher, ob man es für die erste Seite eine Serie verwenden kann...

    Aw: Google Pagination Next Prev

    Ich sehe inzw. dass Du es auch so verstanden hattest und tatsächlich 100 Unterseiten hast, über die sich die Produktlistungen einer Kategorie erstrecken.

    Da ich hier kein Komfort darin sehen würde, eine view-all Seite bereitzustellen (mit 1000 Produkten), denke ich, dass Deine Implementierung derzeit in der Form schon (fast) perfekt ist.

    Ich würde aber zur Verstärkung auch noch das rel=start Attribut verwenden, auch wenn Google es nicht erwähnt und anscheinend alleine dadurch, eine Seite mit rel=next ohne rel=prev zu finden, auf den Start der Serie schließen will oder wird.

    Ansonsten glaube ich aber, dass die Problematik "andere Seite aus der Serie wird genommen" nicht sondernlich oft zu tragen kommen wird.

    Zudem vermute ich, dass dies auch noch dynamisch geschieht.

    Für das obige Beispiel: In der Kategorie Damenhandschuhe sind auf Seite 18 21 der 30 gelisteten Produkte Damenlederhandshuhe.

    Dann könnte Google schon genötigt sein, bei einer dahin zielenden Suchanfrage die Seite 18 anzuzeigen, auch wenn sie nicht die Startseite der Serie ist. Sicherlich werden hier auch Einrückungen mit Seite 18 - eingerückt Seite 1 - oder Seite 1 - eingerückt Seite 18 - in den SERPs erscheinen.

    Aw: Google Pagination Next Prev

    Zum Verständnis bleibe ich mal beim Shopbeispiel:

    Ich meine mit einer paginierten Kategorie nicht die Artikel/Produktseiten in einer Kategorie (bzgl. Deiner Aussage von 100 Unterseiten in einer Kategorie).

    Sondern z.B. den Fall, dass ein Modeversand 583 verschiedene Damenhandschuhe im Sortiment führt und diese nun in einer Kategorie Damenhandschuhe auf 30 paginierten Seiten mit je 20 Produkten übersichtlich aufbereitet.

    Es geht also nicht um die 583 Unterseiten der einzelnen Damenhandschuhmodelle, sondern um die 20 Seiten, auf denen die Kategorie zerlegt wird.

    Diese 20 würde ich mit rel=prev rel=next und rel=start bestücken, um sie als Serie zusammenzufassen.

    Keinesfalls aber die 583 einzelnen Produktseiten.

    Und bzgl. eine Seite statt Serie: wenn ich eine Alternative anbiete, auf der zur Kategorie Damenhandschuhe alle 583 erscheinen (endless category, oder wie das bei Magento z.B. heißt, wo die Produkte beim Scrollen dynamisch nachgeladen werden), dann sollten die 20 Kategorieseiten ein rel=canonical aud diese endlose Kategegorie Seite mit seinen 583 Produkten bekommen, die dann statt der rel=start gekennzeichneten in die SERPs kommen würde.

    Aw: Google Pagination Next Prev

    Im Wesentlichen geht es ja um paginierte Artikel (z.B. in Zeitungsportalen). Dort macht es auch wirklich Sinn. Ebenso bei Kategorieseiten in z.B. Online Shops, die paginiert sind. (Kategorie Damenhandschuhe mit zehn Kategorieseiten dazu).

    Was mich mehr wundert, "rel=prev" und "rel=next" sind ewig alt, nutze ich z.B. seit pi mal Daumen sieben Jahren. Warum Google erst jetzt versucht, diese Information auszuwerten, ist schon schleierhaft.

    "rel=next" und "rel=prev" sind aber insbesondere fürs Prefetching und -rendering interessant und da Chrome hier in der letzten Zeit Veränderungen abbekommen hat, sind sie wohl auch darauf gekommen, es über den WebIndex zu versuchen, damit jeder die Attribute so einsetzt, wie Google es sich wünscht.

    Ich würde mir über die Attribute nur z.. bei Bilderfolgen in Galerien, bei paginierten (Nachrichten-)Artikeln sowie bei paginierten Kategorieübersichten Gedanken machen und ansonsten Google machen lassen, was sie wollen.

    Bzgl. des Absatzes:

    Durch rel=next und rel=prev soll eine Serie gebildet werden. Links auf diese Serie (paginierter Aritkel bei Nachrichten oder paginierte Kategorie) werden zusammengefasst und üblicherweise die erste Seite des Artikels oder der Kategorie in den SERPs angezeigt.

    Aufpassen muss man bei dieser Neuerung, wenn man (z.B. in einem Blog), den nächsten Artikel oder den vorhergehenden mit rel=next bzw. rel=prev ausgezeichnet hat. Denn dann könnten nun plötzlich alle Artikel als eine Serie zusammengefasst sein, was in dieser Form seo-technisch sicherlich nicht erwünscht ist. Also die beiden Attribute auch nicht für einzelne Artikel in einem Shop nutzen, die sich unterscheiden sollen und seo-technisch autark behandelt werden sollen.


    Bzgl. most-relevant: Wenn in einem Zeitungsartikel über 5 Seiten auf Seite 3 ein entscheidendes Zitat eines Politikers erscheint, auf dass sich viele anderen Medien beziehen und Links daher auf die URL zu Seite 3 zeigen und die Suchanfrage auch noch dazu passt, dann wird eben nicht die erste Seite der Serie in die SERPs gezogen, sondern die anscheinend besonders relevante 3. Seite.