2009-07-28 21 views
1

我打算把剽竊探測器作爲我的計算機科學工程最後一年的項目,爲此我想就如何解決這個問題提出你的建議。如何開發剽竊探測器?

我將不勝感激,如果你可以建議其在CS各個領域我需要專注於,也是語言這將是最合適的實現。

+17

你偷了這個從http://stackoverflow.com/questions/1085048/how-would-you-code-an-anti-plagiarism-site? – skaffman 2009-07-28 11:11:14

回答

6

語言幾乎是無關緊要的。 Another questions存在,多討論這一點。基本上,建議的方法是使用Google。提取目標文本的部分內容,然後在Google上搜索它們。

-2

你最好試試python,因爲它很容易開發一個程序,使用這個..我也做了一個關於抄襲檢測器的項目..我建議你首先標記字符串..實際上它很複雜,但這是方式,如果你想開發源代碼,否則,如果我們發展剽竊檢測器的文本文件使用餘弦相似性方法,LCS方法或簡單地考慮位置..

0

我做一個剽竊檢查使用Python作爲一個愛好項目。 要遵循以下步驟:

  1. 令牌文件。

  2. 使用NLTK庫刪除所有停用詞。

  3. 使用GenSim庫並逐行找到最相關的單詞。這可以通過創建文檔的LDA或LSA來完成。

  4. 使用Google搜索API搜索這些詞。

注意: 您可能選擇使用Google API並一次搜索整個文檔。當你使用較少量的數據時,這將起作用。但是,當爲網站和網站掃描數據構建剽竊檢查器時,我們需要應用NLTK算法。

Google搜索API將導致頂端文章與Python GenSim庫函數中的LDA或LSA具有相同的詞彙。

希望它有幫助。