2012-12-21 31 views
0

比方說,你想比較學生的散文,看看其中的一篇散文是否被抄襲。你會如何以一種天真的方式去解決這個問題(即不是太複雜的方法)?當然,比較文章中使用的詞語和使用壓縮功能這些複雜的方法有很多簡單的方法,但是在沒有太多複雜性/理論的情況下,還有其他一些方法可以檢查抄襲嗎?天真的方法來檢測剽竊?

+8

這是一件很糟糕的事情,可能比根本沒有做得更糟。當我上大學的時候,我曾經在紙上被賦予一個F,並被指控在這些天真的抄襲檢測器的基礎上進行抄襲 - 我被指控抄襲的這篇文章引用了我的論文*,並加以歸屬!抄襲檢測器只包含匹配部分,並將背景(包括引文)從其他論文中刪除!只是不要這樣做。 –

+0

只要您不讓探測器做出任何最終決定,只要找到類似的文檔供用戶查看,它應該仍然有幫助。 – fgb

+0

我同意。這更多的是理論上的東西而不是實際的應用。我不打算建立一個基於這個哈哈剽竊探測器 – user1921187

回答

1

你可以看看Dick Grune的similarity comparator,它聲稱也使用自然語言文本(我只在軟件上試過)。算法也被描述。 (順便說一下,他的分析的書真的很好,在我看來)。

2

有幾篇論文給出幾種方法,我建議你閱讀this 本文顯示了基於內置在整個索引結構 算法文件集合。

所以他們說他們的算法可以用來在大型軟件系統中找到類似的代碼片段。在索引建立之前, 集合中的所有文件都被標記。這是一個簡單的解析問題,並且可以在線性時間內解決 。對於集合中的每個N文件,文件F_i的標記器 的輸出是一串n_i標記。

enter image description here

here是其他紙,你可以閱讀

其他好的算法is a scam based algorithm,它由上通過使上一組測試文檔 和登記文件之間是常用詞的比較來檢測抄襲。我們的抄襲檢測系統,像許多信息檢索系統一樣,通過精確度和召回率來評估。