2011-07-31 81 views
1

我需要更改每個已爬網域的用戶代理字符串。我使用標準的Nutch抓取實用程序代碼,它每次抓取一個域。它正在以多線程模式啓動以抓取許多域。我需要傳遞給域字符串[botname] + domainID,但我不確定如何實現它?Nutch 1.3:更改用戶代理

回答

1

由於用戶代理顯示在配置文件(nutch-site.xml)中,所以不可能爲某個域更改該用戶代理。

我建議您爲要抓取的每個域創建一個nutch實例。在每個實例中,您可以設置與要抓取的域匹配的url-filter,種子網址和用戶代理。

這應該允許您使用自定義設置執行每個爬網。

乾杯法力值