2013-07-23 50 views
0

我正在使用nutch爬行,但它在有空間的網站上失敗。我已經通過這個鏈接http://lucene.472066.n3.nabble.com/URL-with-Space-td619127.html但沒有得到滿意的答案。如何使用Apache Nutch抓取有空間的網址?

它適用於URL中seed.txt文件,但不會對工作中的URL頁面

我曾經有位在conf/seed.txt文件的URL的解析的內容,並將其替換空間與%20,我能夠抓取頁面。 我已經添加在正則表達式-normalize.xml

<regex> 
<pattern> </pattern> 
<substitution>%20</substitution> 
</regex>                  

此外以下,我添加的正則表達式-normalize.xml在Nutch的-site.xml中的參考。但我仍面臨同樣的問題。

+0

喜abhijeet,你有沒有試過看看頁面的解析內容中的URL是什麼樣的?他們的空間是否完好無損,或者空間是否被'%20'替代? – yanhan

+0

嗨Yanhan,謝謝你的回覆..天堂有以下模式:http://www.abc.com/efg ghi – abhijeet

回答

1

我有同樣的問題,但更多的字符,所以我改變了Fetcher.java! 新的URL添加到「餵養」部分的隊列! 你必須找到這一行:

nURL.set(url.toString()); 

,並用此替代它:

nURL.set(URIUtil.encodeQuery(url.toString())); 
1

我有同樣的問題,並已將此添加到我的正則表達式,normalize.xml

<regex> 
    <pattern>&#x20;</pattern> 
    <substitution>%20</substitution> 
</regex> 
相關問題