1
我需要更改每個已爬網域的用戶代理字符串。我使用標準的Nutch抓取實用程序代碼,它每次抓取一個域。它正在以多線程模式啓動以抓取許多域。我需要傳遞給域字符串[botname] + domainID,但我不確定如何實現它?Nutch 1.3:更改用戶代理
我需要更改每個已爬網域的用戶代理字符串。我使用標準的Nutch抓取實用程序代碼,它每次抓取一個域。它正在以多線程模式啓動以抓取許多域。我需要傳遞給域字符串[botname] + domainID,但我不確定如何實現它?Nutch 1.3:更改用戶代理
由於用戶代理顯示在配置文件(nutch-site.xml)中,所以不可能爲某個域更改該用戶代理。
我建議您爲要抓取的每個域創建一個nutch實例。在每個實例中,您可以設置與要抓取的域匹配的url-filter,種子網址和用戶代理。
這應該允許您使用自定義設置執行每個爬網。
乾杯法力值