2017-06-15 63 views
0

所以我一直在尋找一種算法來比較文本內容,我發現這個網站叫做Copyscape,它有用於比較文章的非常方便的工具(link)。它似乎在檢測2個文本文檔之間的相似度值(按百分比)方面做得很好。我想知道他們在該工具中使用哪種算法,或者可能類似於它?提前致謝。Copyscape使用什麼算法進行文本比較?

回答

1

我不確定copyscape抄襲是如何工作的。但是,如果你問我實施一個。

我會從 - 定義'剽竊'? content-1和content-2幾乎相似。讓我們說,> 80%是相同的。即內容-1被取爲20%被改變爲產生內容-2。

現在,讓我們嘗試解決:將content-1轉換爲content-2的成本(更改次數)是多少?這是DP(動態編程世界)中衆所周知的問題,如Levenshtein distanceEDIT Distance問題。標準問題涉及字符串距離,但您可以輕鬆修改字詞而不是字符。此外,您可能需要跟蹤所有更改@ line#,這兩個內容上的單詞位置。

現在,上面的問題會給你content-1到content-2的轉換的最小編號。通過content-1的總長度,我們可以很容易地計算從content-1轉到content-2的變化百分比。如果它低於一個固定的閾值(比如說20%),那麼就聲明剽竊。另外,通過第#行的輔助信息,可以顯示兩個內容上的文字位置 - 您可以顯示所做的更改。