2010-09-17 85 views

回答

0

我不確定大型搜索引擎是如何做到這一點的,但我用過的一種技巧是用內容克隆技術。我們爲一個抓取工具做了這個工作,我們發現許多破損的網站鏈接到同一個頁面,並且有無數個獨特的網址。我們需要一種快速檢測非常大的類似頁面的方法,以便我們可以應用更昂貴的重複內容檢查。

http://en.wikipedia.org/wiki/MinHash

編輯:這裏有一些更多的聯繫,包括紙從谷歌

http://knol.google.com/k/simple-simhashing#

http://infolab.stanford.edu/~manku/papers/07www-duplicates.pdf