基於後面MOSS(軟件相似的度量)的學術文章,我一直在抄襲檢測引擎的實現設計抄襲檢測引擎噪聲濾波器在Ruby中
鏈接MOSS
對於爲像C/C++/Java這樣的語言設計噪聲濾波器,我有一些決定。
與檢測剽竊有關的關鍵詞還是應該刪除? 相同語言的源文件被綁定爲共享相同的一組關鍵字。本文不討論如何處理它們。
如何處理標識符? 使用單個字符'V'替換所有關鍵字使得與變量名稱無關的匹配是有意義的。
如何處理軟件包導入和庫包括?
空白區,行政區和標點符號必須清除。
我想知道做完所有的操作後,源文件將只是一堆'V'和其他一些亂碼文本。
噪聲濾波器應該執行哪些操作?
關於處理噪音的最佳方法的見解和意見?
爲什麼去掉標識和意見嗎?如果您檢查兩個具有相同源註釋或局部變量名稱的文檔,是不是很可能面臨抄襲? – 2011-12-17 12:26:37
標識符的名稱可以很容易地更改,以欺騙系統,以免剽竊。所以我們需要獨立處理它們的名字。意見通常由免責聲明和許可條款組成,因此應予以忽略。 – 2011-12-17 12:28:48
我明白。儘管如此,我認爲單獨檢查本地變量名稱可能會增加檢測plagiats的機會。你當然不應該依賴於這種方式,因爲沒有匹配的名字會導致消極的結果。 – 2011-12-17 12:38:02