我正在試驗一下文本比較/基本抄襲檢測,並希望在網站到網站的基礎上嘗試。然而,我有點卡住尋找處理文本的正確方法。比較網站的文本內容
你會如何處理和比較兩個網站的抄襲內容?
我想是這樣的僞代碼:
// extract text
foreach website in websites
crawl website - store structure so pages are only scanned once
extract text blocks from all pages - store this is in list
// compare
foreach text in website1.textlist
compare with all text in website2.textlist
我意識到,這個解決方案很可能迅速積累了大量的數據,所以它可能只可能使其具有非常小的網站工作。
我還沒有決定實際的文字比較算法,但現在我更感興趣的是讓實際的工藝算法先行工作。
我想這是一個好主意,作爲單獨的文本塊(從段落,表格,標題等)提取所有文本,因爲文本可以在頁面上移動。
我正在C#(也許是ASP.NET)中實現它。
我對任何意見或建議都很感興趣,所以請拍! :)
也可以使用第三方服務來使用你自己的邏輯推動這個流氓。我可以在https://api.copyleaks.com上推薦您使用.NET實現(通過Nuget或Github)。閱讀更多:https://github.com/Copyleaks/.NET-Plagiarism-Checker – No1Lives4Ever 2016-04-22 09:52:57