2013-11-26 28 views
-4

我對剽竊檢查機構(如Turnitin網站)的工作原理印象深刻。但他們如何做到這一點?在一個非常有效的方式中,我是這個領域的新手,因此有沒有任何詞匹配算法或類似於用於檢測相似句子的任何內容?
非常感謝。剽竊檢測機器下的算法

+3

[WikiPedia](http://en.wikipedia.org/wiki/Plagiarism_detection)沒有幫助嗎? – Till

回答

2

我敢肯定,許多真實世界的剽竊檢測系統使用更復雜的方案,但檢測兩件事物有多遠的一般問題稱爲edit distance。該鏈接包括許多用於此目的常用算法的鏈接。這個要點正在有效地回答「我必須執行多少編輯才能將一個輸入轉換爲另一個輸入?」。現實世界系統面臨的挑戰是以有效的方式在大型語料庫上執行此操作。一個相關的問題是longest common subsequence,這可能也是有用的這種方案來確定逐字複製的段落。