如何開發剽竊探測器？

我打算把剽竊探測器作爲我的計算機科學工程最後一年的項目，爲此我想就如何解決這個問題提出你的建議。如何開發剽竊探測器？

我將不勝感激，如果你可以建議其在CS各個領域我需要專注於，也是語言這將是最合適的實現。

+17

你偷了這個從http://stackoverflow.com/questions/1085048/how-would-you-code-an-anti-plagiarism-site？ – skaffman 2009-07-28 11:11:14

語言幾乎是無關緊要的。 Another questions存在，多討論這一點。基本上，建議的方法是使用Google。提取目標文本的部分內容，然後在Google上搜索它們。

2009-07-28 11:14:05 Sampson

-2

你最好試試python，因爲它很容易開發一個程序，使用這個..我也做了一個關於抄襲檢測器的項目..我建議你首先標記字符串..實際上它很複雜，但這是方式，如果你想開發源代碼，否則，如果我們發展剽竊檢測器的文本文件使用餘弦相似性方法，LCS方法或簡單地考慮位置..

2010-10-21 07:41:32 aNn

我做一個剽竊檢查使用Python作爲一個愛好項目。要遵循以下步驟：

注意：您可能選擇使用Google API並一次搜索整個文檔。當你使用較少量的數據時，這將起作用。但是，當爲網站和網站掃描數據構建剽竊檢查器時，我們需要應用NLTK算法。

Google搜索API將導致頂端文章與Python GenSim庫函數中的LDA或LSA具有相同的詞彙。

希望它有幫助。

2017-08-03 18:03:53

回答