Plagium und Alternativen

  • Hallo Zusammen,

    ich war auf der Suche nach einem Tool um Plagiate zu erkennen. Ich habe Plagium ausprobiert, und war nicht begeistert. Zum Test habe ich einen Text von meiner Homepage geklaut und dort eingegeben (Plagiat erkannt), aber wenn ich drei Wörter leicht abändere, dann identifiziert er kein Plagiat mehr. Kennt jemand von euch eine gute Alternative?
    Danke bereits im Voraus! :)

  • Die Tools arbeiten alle nach dem Schema, dass Text 100% gleich sein muss. Die Frage ist hier nur, wie viel es sein muss. Wenn man in einem Text jedes zweite Wort umstellt, aber nicht ändert, also die gleichen Worte im Text sind, dann findet das kein mir bekanntes Tool.

    Mein Tipp: *** Link veraltet ***

    Wenn ein Mensch nicht um dich kämpft, hat er nur gewartet, dass du gehst. ;(

  • *** Link veraltet *** ... wollte ich schreiben ... aber ich lass das mal lieber. Iwie bin ich heute wohl zu langsam :wall:

    Er war Jurist und auch sonst von mäßigem Verstand.

    (Volker Pispers)

  • Danke für die schnellen Antworten! :)
    Also wenn jemand bei mir einen Text klauen will, rein theoretisch kann er das machen, wenn er drei-vier Wörter ändert oder den Satzbau? Google erkennt das aber trotzdem, oder? Dann müsste ich hoffen, dass derjenige weniger Authority hätte, damit er abgestraft wird und nicht ich!?

  • Zitat

    Also wenn jemand bei mir einen Text klauen will, rein theoretisch kann er das machen, wenn er drei-vier Wörter ändert oder den Satzbau?


    Wenn einer her geht und bei Dir einen Text mit 100 Wörtern klaut und dann jedes zweite mit dem nächsten vertauscht, dann erkennt das kein Tool. Google möglicherweise schon, denn die arbeiten nicht nur nach Reihenfolge der Wörter, sondern auch nach Inhalt. Und wenn man alle Wörter einfach nur vertauscht ist der Inhalt ja noch gleich, also auf jedes einzelne Wort bezogen.

    Copyscape braucht für die Erkennung glaube ich 6 oder 7 gleiche Wörter in Folge und diesen Block dann mehrfach auf der Seite. Je länger ein gleicher Block ist, desto weniger doppelte Blöcke müssen vorkommen und die Erkennung steigt. Wenn in einem ganzen Text nur 3 Wörter geändert werden, dann findet das copyscape. Wenn Du in dem kurzen Post 10 Wörter änderst, dann findet das copyscape auch.

    Beim Satzbau wird es schwieriger, kommt drauf an, wie gut der Text umgeschrieben wird. Kann gut sein, dass der dann nicht mehr gefunden wird. Aber wie gesagt, dann dürfen aber keine 6, 7 oder 8 Wörter in Folge gleich sein. Es geht also nicht darum, ob alles gleich ist, oder wie viel anders ist, sondern rein darum, wie viel gleich ist.

    Zitat

    Dann müsste ich hoffen, dass derjenige weniger Authority hätte, damit er abgestraft wird und nicht ich!?


    Google weiß normalerweise, wer den Text als erstes hatte.

    Wenn ein Mensch nicht um dich kämpft, hat er nur gewartet, dass du gehst. ;(

  • Ein Plagiat ist sowieso schwierig. Da juristisch was durchzusetzen ist annähernd unmöglich. Der Dumme biste so oder so erstmal. Das, was noch am besten zieht, wenn der Mist mal ziemlich heftige Auswüchse annimmt, anschreiben und nicht auf die niedliche Tour und sofortige Einstellung verlangen. Wird nicht reagiert, hilft es auch in den meisten Fällen, den Hoster entsprechend anzuschreiben.

    Wirklich durchsetzbare Rechte haste nur bei 1 : 1 Kopien und auch da nur in Abhängigkeit der Schöpfungshöhe.

    Er war Jurist und auch sonst von mäßigem Verstand.

    (Volker Pispers)

  • nein... da muss ich widersprechen obwohl ich nur überflogen habe.
    google erkennt DC Domainweit sehr gut. Auch wenn du austauschts ( auch Synonyme etc verwendest. )

    Es ist leider trotzdem so, dass Webseiten dann vor dir ranken könnten. Wenn andere Parameter stimmen wie Linkstruktur sind da wichtig.
    Persönliche Erfahrung ;) u gef...

    wenn etwas möglich erscheint mach ich das, wenn das nicht klappt gehts ans unmögliche und ansonsten das undenkbare.

    - nun stolz rauchfrei - Ich denke also Bing ich!

    Support 24h Bereitschaft 0173 6107465 - NUR Für Kunden von SEO NW!

  • aja zu meiner Erfahrung. jmd hat texte geklaut die ich geschrieben habe. So richtig schön hat das mal gerankt. Da ging es richtig abwärts zu der Zeit, ist schon paar JAhre her.
    Dann hab ich ihn angeschrieben und der wurde richtig patzig! Ja gut Herr Alex, dann schreib ich das ein wenig um... Mir war das damals zu blöd und er rankt kein deut besser als vorher ( also gar nicht! )

    wenn etwas möglich erscheint mach ich das, wenn das nicht klappt gehts ans unmögliche und ansonsten das undenkbare.

    - nun stolz rauchfrei - Ich denke also Bing ich!

    Support 24h Bereitschaft 0173 6107465 - NUR Für Kunden von SEO NW!

  • Das hab mich auch schon immer interessiert wie diese Tools arbeiten sollen, wie die jeden Text mir jeder Seite im Net abzugleichen versuchen und welche Toleranzkriterien dabei angewandt werden. Aber auch hier im Thread finden sich dann einige Aussagen, die sich dann wieder widersprechen.

    Zu Google: Wie definierst Du denn in diesem Zusammenhang "Inhalte" Syno, wenn Du davon sprichtst, dass G Inhalte erkennen soll?

    „Arme Kinder sind genauso schlau und so talentiert wie weiße Kinder.“ :thumbup:

    US-Präsident Biden 2019 in einer Rede in Iowa,

  • Es ist eigentlich ganz einfach... Es war immer negativ behaftet in der Vergangenheit wenn DC auftrat. Tut es mittlerweile nicht mehr. Google erkennt mittlerweile sehr gut den Urheber.
    Bing hängt da nochwas, aber das wird bestimmt auch noch....

    Wenn massenhaft kopiert wird ( auch mit umschreiben!!! ) schrillen bei Google die Alarmglocken und die Seite ist weg.

    Das sind meine Beobachtungen, man kann auch "anders". Es gibt diesen Google Filter definitiv, und ja es mag dem ein opder anderen bekannt sein.

    Deswegen auch sterben die WK, AV, da ... ach ich halt die Schnauze ;)

    wenn etwas möglich erscheint mach ich das, wenn das nicht klappt gehts ans unmögliche und ansonsten das undenkbare.

    - nun stolz rauchfrei - Ich denke also Bing ich!

    Support 24h Bereitschaft 0173 6107465 - NUR Für Kunden von SEO NW!

  • Ich definiere Inhalte so, wie ich eigentlich dachte es geschrieben zu haben. Nicht Inhalte im Sinne von Informationen, sondern Inhalte im Sinne von Wörtern.

    Für die Tools muss ein Satz oder ein Teil 100% identisch sein (einfacher Stringvergleich). Der Inhalt ist im Grunde aber noch immer der selbe, wenn Absätze vertauscht werden. Er ist auch der selbe, wenn Sätze vertauscht werden. Oder eben alle Wörter. Klar, dann ergibt der Text keinen Sinn mehr, aber der Inhalt ist der gleiche, es stehen die gleichen Wörter drin. Die Wahrscheinlichkeit, dass es sich um den gleichen Text handelt ist also um so wahrscheinlicher, je mehr Gleichheiten ein Text hat, natürlich auch in Abhängigkeit mit der Textlänge und wie lange die Ketten der Gleichheiten sind. Der Unterschied der ganzen Tools und auch Google ist nur, wie man diese "Gleichheit" berechnet und welchen Aufwand man dafür betreibt, die Texte zu vergleichen. Ich habe es schon mal irgendwo geschrieben. Selbst PHP hat diese Funktionen, allerdings halt wirklich im Minimalstandard. Google ist aber auch in der Lage, Synonyme zu erkennen, also Inhalte zumindest "rechnerisch" bestimmen zu können. Verstehen tut es den Text nie und ob die Rechnung das richtige Ergebnis liefert muss auch nicht zwingend sein.

    Das ist mit ein Grund, warum Textgeneratoren nicht mehr wirklich funktionieren, auch wenn z.B. ein Tool wie Copyscape sagt "unique". Nur umgeschrieben macht es halt nicht unbedingt einmalig.

    Wenn ein Mensch nicht um dich kämpft, hat er nur gewartet, dass du gehst. ;(

  • [USER="98"]Synonym[/USER] ja das hast du kompliziert ausgedrückt-... als programmierer halt.
    du kannst dir auch den ganzen text saugen und über spinner laufen lassen. Google erkennt das mittlerweile mässig. Aber Google erkennt es.

    Auch wovon ich abstand nehmen würde, wären übersetzungen.
    Nur so gehört ;)

    wenn etwas möglich erscheint mach ich das, wenn das nicht klappt gehts ans unmögliche und ansonsten das undenkbare.

    - nun stolz rauchfrei - Ich denke also Bing ich!

    Support 24h Bereitschaft 0173 6107465 - NUR Für Kunden von SEO NW!

  • Also mit anderen Worten: Ein (fast) perfekte Anwendung von Semantik?

    UNMÖGLICH.

    Soweit ist keiner und keiner ist auch nur annähernd dran. Den Sinn (Inhalt?) von Texten versteht bisher keine Software. Das einzige was funktioniert ist sich die Metas anzugucken und dann mit dem Inhalt abzugleichen, womit aber immer noch kein "Inhalt" erkannt ist. Ist schlicht eine Wahrscheinlichkeitsrechnung. Deshalb bin ich auch bis heute der Meinung, dass die Sumas auch die Desc und die KWs mit in die Wertung miteinbziehen, ebenso wie Linktexte, Grundthema der verlinkenden Sites, Thema der verlinkenden Seite.

    >> Inhalte im Sinne von Wörtern.

    In meiner Ecke z, B. komme ich (und auch andere) gar nicht dran vorbei mehr oder weniger immer dieselben Synoyme zu verwenden, die inhaltliche Aussage ist dann aber eine völlig andere. Lediglich das > Inhalte im Sinne von Wörtern < als Bewertungsgrundlage herzuziehen, würde bedeuten, dass z. B. meine Sites DC-Wüsten sind. Auch die Quantität von vernünfigen Synonymen ist nunmal arg begrenzt.


    Auch G ist, was das Erkennen von "Inhalten" angeht lediglich ein Erbsenzähler. Je mehr "Inhalte" auf einer Seite behandelt werden, desto schwerer fällt die Einordnung. Ich beobachte immer wieder, dass Seiten mit zwei, drei Sätzen relativ gut gelistet sind, vermutlich, weil es bei denen nicht viel zu rätseln gibt.

    „Arme Kinder sind genauso schlau und so talentiert wie weiße Kinder.“ :thumbup:

    US-Präsident Biden 2019 in einer Rede in Iowa,

  • [USER="98"]Synonym[/USER] ja das hast du kompliziert ausgedrückt-... als programmierer halt.
    du kannst dir auch den ganzen text saugen und über spinner laufen lassen. Google erkennt das mittlerweile mässig. Aber Google erkennt es.

    Auch wovon ich abstand nehmen würde, wären übersetzungen.
    Nur so gehört ;)


    Genau meine Meinung. Wie gut, das sei dahingestellt, aber möglich. Und diese Tools können das eben nicht. Es ging ja um die Tools und nicht um Google. Aber was war da nun kompliziert? Das war extra ganz einfach geschrieben, hätte auch mit "phonetischem Algorithmus", "Kölner Phonetik" oder allgmein mit "Editierdistanz" kommen können ;) Bin mir aber sicher, dass Google das auf Basis seiner Datenmengen besser kann. Man muss ja nicht nur eines nutzen, man kann auch kombinieren. Und ja, alles sind Wahrscheinlichkeiten.

    Wenn ein Mensch nicht um dich kämpft, hat er nur gewartet, dass du gehst. ;(

  • Also mit anderen Worten: Ein (fast) perfekte Anwendung von Semantik?

    UNMÖGLICH.


    derzeit ja, nicht nur bei fast.

    Soweit ist keiner und keiner ist auch nur annähernd dran. Den Sinn (Inhalt?) von Texten versteht bisher keine Software.


    Nein, den Sinn, also das, wo der Mensch sein Hirn für braucht, erkennt die Software nicht. Beste Beispiel sind da ja auch Textaufgaben. Je nachdem, wie man sie ließt, ergeben sie einen anderen Sinn. Maschinen können das nicht, das können viele Menschen noch nicht mal.

    >> Inhalte im Sinne von Wörtern.

    In meiner Ecke z, B. komme ich (und auch andere) gar nicht dran vorbei mehr oder weniger immer dieselben Synoyme zu verwenden, die inhaltliche Aussage ist dann aber eine völlig andere. Lediglich das > Inhalte im Sinne von Wörtern < als Bewertungsgrundlage herzuziehen, würde bedeuten, dass z. B. meine Sites DC-Wüsten sind. Auch die Quantität von vernünfigen Synonymen ist nunmal arg begrenzt.


    Das sage ich ja auch nicht. Da sind viele Faktoren, die kombiniert werden (können). Alex schrieb aber schon, mein Post wäre kompliziert. Wie soll ich das dann also beschreiben? Und selbst dann wäre meine Arbeitsweise wohl nur ein Bruchteil von Google ;)


    Auch G ist, was das Erkennen von "Inhalten" angeht lediglich ein Erbsenzähler. Je mehr "Inhalte" auf einer Seite behandelt werden, desto schwerer fällt die Einordnung. Ich beobachte immer wieder, dass Seiten mit zwei, drei Sätzen relativ gut gelistet sind, vermutlich, weil es bei denen nicht viel zu rätseln gibt.


    Das ist wieder komplett richtig. Die Mathematik stößt da an Grenzen, weil alles plausibel ist, aber nicht zueinander passt. Eine einzelne Seite zu erkennen sollte Google möglich sein (Ist es auch, Adsense bestätigt das), sind auf einer Domain aber viele verschiedene Themen (AV, WK), dann hat Google Probleme, denn eine globales Thema der Site gibt es nicht.

    Natürlich sind davon auch ganz spezielle Fachgebiete betroffen, die Google (also die SW) so nicht kennt. Da gibt es also auch Probleme, wobei der Mensch, der das Thema kennt, die Zusammenhänge sieht.

    Wenn ein Mensch nicht um dich kämpft, hat er nur gewartet, dass du gehst. ;(

  • Finde, dass das Thema nun gut und verständlich herausgearbeitet wurde.

    „Arme Kinder sind genauso schlau und so talentiert wie weiße Kinder.“ :thumbup:

    US-Präsident Biden 2019 in einer Rede in Iowa,

  • Das da > *** Link veraltet *** < ist für mich so ein Beispiel bei dem ich mich frage was das soll. Warum verständlich, wenns auch unverständlich geht, indem dauernd relativ unbestimmte Begriffe wie Ontologie und Entität verwurschtelt werden? Relevanz nennt er Semantik.

    Wenn Site A dem Begriff "Schuh" zugeordnet werden kann, ist sie logischerweise relevant zu Site B die ebenfalls dem Begriff "Schuh" zugeordnet werden kann und z. B. Deichmann, etwas weniger relevant zu einem Sockenhersteller und überhaupt nicht relevant zu einem Baumaschinenhersteller.

    Gut, ist jetzt etwas vereinfacht, aber muss man dazu eine ellenlange pseudowissentschaftliche Abhandlung erstellen, die kein Mensch versteht, um sich in der Soeszene wichtig zu machen?

    „Arme Kinder sind genauso schlau und so talentiert wie weiße Kinder.“ :thumbup:

    US-Präsident Biden 2019 in einer Rede in Iowa,