承擔抄襲以下生成模型:高級序列比對
剽竊者: 1.刪除部分文字 2.重新排列文本 3.添加新文本的部分。
Ex。如果ABCD是原始文本(A,B,C和D可以是段落或一堆句子),則輸出可以是DEAFCG,其中E,F和G是附加文本。另外,剽竊者會添加小錯誤(插入,替換和刪除率較低)。
我們該如何去檢測這個剽竊事件?
我到目前爲止所做的:嘗試使用最長的公共子序列方法。它檢測到一組線性匹配的文本。在上面的例子中,它會檢測到D或AC(取決於它們的長度)
我需要:處理這個問題的原則性方法。任何對已有文獻的引用都會非常有幫助。任何想法的僞代碼也很好。沒有代碼請。
這既不是家庭作業,也不是面試問題。我把我的實際問題簡化成了這個棘手的問題。
根據你的一些精明的答案,我發現如果你問一個問題,它肯定是一個有挑戰性的問題!這裏是您可能看到的一篇文章 - http://en.wikipedia.org/wiki/Plagiarism_detection – 2013-04-11 00:15:27