1
A
回答
0
我不確定大型搜索引擎是如何做到這一點的,但我用過的一種技巧是用內容克隆技術。我們爲一個抓取工具做了這個工作,我們發現許多破損的網站鏈接到同一個頁面,並且有無數個獨特的網址。我們需要一種快速檢測非常大的類似頁面的方法,以便我們可以應用更昂貴的重複內容檢查。
http://en.wikipedia.org/wiki/MinHash
編輯:這裏有一些更多的聯繫,包括紙從谷歌
http://knol.google.com/k/simple-simhashing#
http://infolab.stanford.edu/~manku/papers/07www-duplicates.pdf
相關問題
- 1. 搜索引擎和兩個網站上的重複內容
- 2. 搜索引擎如何通過互聯網找到網站
- 3. 搜索引擎優化和內容 - 重複的內容
- 4. 如何解決搜索引擎的重複內容?
- 5. 搜索引擎優化 - 目錄索引重複內容
- 6. 谷歌搜索引擎優化 - 重複提交站點地圖網頁內容
- 7. 創建內部網站搜索引擎
- 8. 如何讓搜索引擎找到我的AJAX內容
- 9. ASP.NET網站搜索引擎
- 10. 網站搜索引擎
- 11. 網站搜索引擎
- 12. 網站搜索引擎
- 13. 搜索引擎如何抓取網站?
- 14. 內容複製和搜索引擎
- 15. 搜索引擎索引Flash網站?
- 16. 動態內容網站的搜索引擎優化
- 17. 內容搜索引擎
- 18. 如何創建搜索引擎或修改現有搜索引擎僅用於網站內的搜索?
- 19. 如何使網站能夠搜索不同的搜索引擎
- 20. 搜索引擎如何識別網站上的搜索框?
- 21. Google中的內容重複。搜索引擎優化Drupal
- 22. 搜索引擎優化友好的網址,以避免重複的內容
- 23. 跨域內容重複和搜索引擎優化
- 24. 如何使搜索引擎到您自己的網站
- 25. 搜索引擎的多語言網站
- 26. 搜索引擎的網站地圖
- 27. WebMatrix的站內搜索引擎
- 28. 搜索引擎(Google,Yahoo,Bing等)如何處理重複的內容頁面
- 29. 搜索網站內容
- 30. 頁腳重疊的內容(找不到搜索引擎的解決方案..)