2013-04-08 42 views
0

我們使用nutch 1.6來抓取網頁。根據nutch配置,應該給出種子列表和域url-filter來遍歷指定的域。但是,如果我們想要抓取新發現的網址(如果它們的擴展名是co.uk)(我們可以通過將新發現的網址域添加到文件 - 或db,無論 - ),停止搜索器,更新域url-過濾器和種子列表,然後重新啓動它。但是我們如何動態地做到這一點,而不是停止爬蟲?Nutch - 獲取新發現的域

在此先感謝。

P.S:co.uk域擴展只是一個例子,我們也可以添加多個擴展來允許。

回答

0

明白了。

你可以像「gov.uk」爲DomainURLFilter source code上線186-189添加後綴,域urlfilter.txt:

if (domainSet.contains(suffix) || domainSet.contains(domain) 
    || domainSet.contains(host)) { 
    return url; 
    } 

它會檢查後綴,域名和主機。

此外,您可以將域名保留在HBase表中,並通過您自己的過濾器插件而不是使用DomainURLFilter來管理它們。