2015-12-15 65 views
0

我想根據鏈接到HTML網頁的網站來抓取網站。Web-Crawler的黑名單

但是,我擔心結束了各種「不太友善的兒童網站」。有誰知道黑名單網站列表我可以開始實施我自己的過濾器,以遠離(至少一些)着色器的地方?

謝謝!

回答

0

稍微不同的方法是使用opendns familyshied並在運行爬網程序的服務器上配置DNS。然後,您可以在抓取工具中使用自定義過濾器來檢測由opendns過濾的頁面,並防止它們被索引或存儲。

你不需要處理和管理黑名單,讓opendns代替你做。

3

圖盧茲大學爲不同類型的維護良好的黑名單提供了一個很好的來源。你可以找到它們here

另一種方法是使用專注的抓取工具並讓分類器決定,如果給定的頁面值得被抓取,或者不適合您感興趣的特定域名。