2014-10-17 70 views
1

如何配置抓取工具nutch,以便只抓取英文頁面?Nutch crawler:只接受英文頁面

我在Nutch的-site.xml文件設定了這項政策,但它不工作:

<property> 
<name>http.accept.language</name> 
<value>en-us,en-gb,en;q=0.7,*;q=0.3</value> 
<description>Value of the "Accept-Language" request header field. 
This allows selecting non-English language as default one to retrieve. 
It is a useful setting for search engines build for certain national group. 
</description> 
</property> 
+0

我只想抓取英語和烏爾都語語言的網頁,我可怎麼辦呢? – Shafiq 2015-03-05 04:15:51

回答

0

值設置:<value>en-us,en-gb,en;q=0.7,*;q=0.3</value>意味着它喜歡英語,但其他語言(*)仍然存在。對於只抓取英文頁面,您應該設置如下值:

<value>en-us,en-gb,en</value> 

爲了確保,還要更改nutch-default.xml中的值。

希望這有助於

-Le富國待辦事項