Webseiten vergleichen

  • Hallo zusammen,

    ich bin mal wieder auf der Suche nach einen Tool, wenn es so etwas denn überhaupt geben sollte.

    Vorwort: Ich "Update" seit ein paar Tagen ein Portal von mir, das nun in der neuer Version auf einer "DEV-Domain" liegt. Eigentlich sollten da nur Scripte upgedatet werden, der Code müsste gleich bleiben, aber sicher bin ich mir da leider nicht.

    So, nun suche ich was, was mir zwei Seiten miteinander vergleichen kann. Im Grunde so etwas wie WinMerge, nur oben für online und "halbautomatisch".

    Mein Vorhaben wäre, dass ich eine Seite auf der "DEV" aufrufe und das Tool im Hintergrund die Originalversion zieht. Da dann den Quelltext vergleicht und sagt "stimmt" oder "stimmt nicht". Schön wäre es bei "stimmt nicht", wenn es sagen würde, was anders ist, aber das wäre schon ein Zusatz. Der reine Vergleich ja oder nein würde mir reichen.

    Gibt es so etwas??

    Wenn ein Mensch nicht um dich kämpft, hat er nur gewartet, dass du gehst. ;(

  • Hm.. also ich nutze WinMerge auch ausgiebig.
    Für Dein Vorhaben würde ich beide Projekte auf nen Unix/Linux-Rechner ziehen und die da einfach vergleichen?

    Wer zuerst "Datenschutz" sagt, hat verloren.

  • Ähm, ja nee. Mir geht es ja nicht um den PHP-Code, ob der gleich ist - ist er nicht, sondern der erzeugte HTML-Code. Sind keine statischen Files ;)

    Bisher nehme ich auch WinMerge und kopiere da immer den Quelltext von beiden Seiten rein, aber das ist halt etwas sehr umständlich bei mehr als 1000 Seiten.

    Also in der Art quasi so was wie per PHP Seite 1 in einen String einlesen, und Seite 2 einlesen (URL gleich, Domain anders) und beide Strings dann vergleichen. So, das ganze nun nur graphisch als "zwei Frames" nebeneinander. Im einen ist das Original, im anderen die "Kopie", so, dass man halt da noch direkt weiter navigieren kann - daher "halbautomatisch".

    So was selbst zu erstellen ist ja möglich, nur den Aufwand wollte ich mir sparen ;)

    Wenn ein Mensch nicht um dich kämpft, hat er nur gewartet, dass du gehst. ;(

  • Da es nicht um den PHP Code sondern um die Seite: falls es rein um den Inhalt und nicht um HTML geht, würde ich mal die Copyscape API näher betrachten, ob sie nicht dafür umbiegbar wäre.

    Alternativ und auch für HTML nützlich: Mit wget zwei Kopien des Projekts scrapen und dann in der Konsole diff drauf.

    Dafür sollte man für die Automatisierung auch schnell ein Batch Skript schreiben können.

    Problematisch wird es nur, wenn es irgendwo zufällige dynamische Ausgaben im HTML gibt (Datum?, Adserver etc.)

    Oh: in dem Bereich werden auch Tools angeboten, z.B. HTML Match oder - opensource *** Link veraltet ***

  • Aho, die Demo geht leider nicht, aber das hört sich schon mal seht gut an. Dynamische Ausgaben gibt es nicht. Wenn es Unterschiede zwischen beiden Versionen gibt, dann ist das ein Fehler und sollte nicht sein - genau das möchte ich ja finden ohne alles per Hand durchzugehen.

    An den Ansatz mit dem Server hatte ich noch gar nicht gedacht. War da an was halbautomatischen mit dem Browser. Über den Server direkt und wget könnte man das auch machen... Dann noch eine Liste alles URLs hochladen und das Ding machen lassen.


    Hört sich wirklich gut an, Danke!

    Wenn ein Mensch nicht um dich kämpft, hat er nur gewartet, dass du gehst. ;(

  • Ein Problem dürften noch die URLs im Quelltext darstellen: wenn es da produktiv oder im development nicht nur relative URLs gibt, müsste man eine Ausnahmebehandlung für den HOST mit einbedenken. Sonst hätte man ja in jeder generierten HTML Datei ein Diff.

  • Wozu brauchst Du denn den Diff zwischen der Live-Domain und der anderen?
    Hol Dir doch einfach beide Domains mit zB *** Link veraltet *** und vergleich sie dann mir WinMerge.

    Wer zuerst "Datenschutz" sagt, hat verloren.

  • Ja also TTrack ist nicht das Schnellste Tool, weil das einfach die komplette Site - so wie Du das halt einstellst - ziehr und Bilder/Sitestruktur und HTML speichert.
    Da würde ich vielleicht die neue Site auf ner "Arbeits-Domain" hochladen und dann serverseitig vergleichen lassen mit der alten Livedomain. Und vielleicht einfach mal ein paar Testeingaben reinjagen in alle Formulare/whatever?
    So kannste auch gleich mal die Schreckanfälligkeit Deines Hosters testen, wenn da ne Mio Anfragen auf einmal kommen...

    catcat
    ok, das wäre dann wohl noch ein andere Lösung.

    Wozu ich das brauche? Na eben um zu sehen, ob meine bisherigen Funktionen und die neuen Funktionen noch immer den gleichen Output liefern. Sind zwar durchgehen getestet, aber bei so seltsamen Konstellationen kommt es schon mal vor, dass die dann nicht mehr das macht, was sie soll. Oder eben ein Zahlendreher drinnen ist, irgendwo, der so gesehen keinen Fehler verursacht, aber eben auch nicht mehr das Ergebnis liefert was er soll. Ich möchte also vergleichen, ob alte und neue System vom HTML-Quellcode her identisch sind.

    Das mit dem "Mirror" muss ich mir mal ansehen. Hört sich so erst mal nicht schlecht an, aber da wird ein diff auf der Console wohl schneller sein. Wenn der Spider da alles runerlädt und die Verzeichnisse anlegt, dann reden wir hier von ca. 60.000 Seiten (120.000 für alt und neu). Primär wären es so an die 1000, die ich mir ansehen müsste. Wenn die passen, dann passen die anderen auch.

    Wenn ein Mensch nicht um dich kämpft, hat er nur gewartet, dass du gehst. ;(

  • Ja also TTrack ist nicht das schnellste Tool, weil das einfach die komplette Site - so wie Du das halt einstellst - zieht und Bilder/Sitestruktur und HTML speichert.
    Da würde ich vielleicht die neue Site auf ner "Arbeits-Domain" hochladen und dann serverseitig vergleichen lassen mit der alten Livedomain. Und vielleicht einfach mal ein paar Testeingaben reinjagen in alle Formulare/whatever?
    So kannste auch gleich mal die Schreckanfälligkeit Deines Hosters testen, wenn da ne Mio Anfragen auf einmal kommen...

    Wer zuerst "Datenschutz" sagt, hat verloren.

  • Also die Seite liegt ja auf einer extra Domain, nur zum Testen. Daher war auch der Vorschlag von Chris mit dem diff sehr gut. Mit wget per Pipe den Input holen, auswerten und Änderungen speichern, wenn den vorhanden. Eine Liste der URLs habe ich auch, also die in einer Schleife abzuarbeiten ist nicht das Problem.
    Das war ja genau das, was beim WinMerge fehlte. Der automatische Input von Daten aus dem Web.

    Meinem Hoster sollte das so ziemlich egal sein. Ist ja mein eigener Server und die Anfragen sollten da kein Thema sein.

    Aber mal was ganz anderes....

    Warum zum Geier steht Dein Post denn einmal als Antwort hier und einmal als Teil meines vorherigen Postings???

    Wenn ein Mensch nicht um dich kämpft, hat er nur gewartet, dass du gehst. ;(

  • Weil ichnchmal doof bin und statt auf "Antworten" auf "Bearbeiten" klicke.
    Und sobald ich das dann bemerke, fang ich hektisch an rumzuklicken, um das zu reparieren :P

    Wer zuerst "Datenschutz" sagt, hat verloren.