大家好世界各地,剽竊分析儀(對網頁內容進行比較)
背景
我最後一年的學生計算機科學。我提出了使用Java和MySQL的我的Final Double Module Project,它是一個剽竊分析器。
抄襲分析儀:
- 掃描所有上傳文檔的段落。分析從哪個網站複製的每個段落的百分比。
- 僅突出顯示每個段落中完全從哪個網站複製的文字。
我的主要目標是開發類似Turnitin的東西,如果可能的話改進。
我有不到6個月的時間來開發這個程序。我已經作用域如下:
- 網絡爬蟲實現。可能會使用Lucene API或開發我自己的Crawler(哪一個在時間開發和可用性方面更好?)。
- 散列和索引。改進搜索和分析。
問題
這裏是我的問題:
- 能MySQL的商店,太多的信息?
- 我錯過任何重要的話題嗎?
- 您對這個項目有何看法?
- 任何建議或技術進行相似性分析?
- 段落可以散列,還有文字?
在此先感謝您的任何幫助和建議。 ^^
這難道不算你的同學的草? ;-) – Steve314 2009-10-14 17:02:35
你可能想看看規範化的壓縮距離:http://stackoverflow.com/questions/1085048/how-would-you-code-an-anti-plagiarism-site/1085085#1085085 – Stephan202 2009-10-14 18:03:17
謝謝很多Stephan202爲突出顯示! ;) – 2009-11-02 09:17:49