2014-11-24 23 views
3

我正在使用nutch2.2.1。日誌文件正在生成以下錯誤錯誤Nutch沒有在'http.agent.name'中列出的代理商

ERROR protocol.RobotRulesParser - 我們宣傳的代理(nutch-spider-2.2.1)未在'http.robots.agents'屬性中首先列出!

我的nutch-site.xml的是(對上述房產)

<property> 
<name>http.agent.name</name> 
<value>nutch-spider-2.2.1</value> 
</property> 

我的nutch-default.xml中是

<property> 
<name>http.agent.name</name> 
<value></value> 
</property> 

哪裏是實際的問題?請明確指導(妥善解釋)。 這個問題發佈here但我必須得到這個問題(如果需要),這就是爲什麼再次張貼它。

回答

3

您應該添加「http.robots.agents」的屬性,並將http.agent.name的值作爲第一個代理名稱,並將默認*保留在列表末尾。如:

<property> 
    <name>http.robots.agents</name> 
    <value>nutch-spider-2.2.1,*</value> 
</property> 
+0

謝謝它爲我工作 – Shafiq 2014-12-08 04:44:51

相關問題