如何使用Apache Nutch抓取有空間的網址？

我正在使用nutch爬行，但它在有空間的網站上失敗。我已經通過這個鏈接http://lucene.472066.n3.nabble.com/URL-with-Space-td619127.html但沒有得到滿意的答案。如何使用Apache Nutch抓取有空間的網址？

它適用於URL中seed.txt文件，但不會對工作中的URL頁面

我曾經有位在conf/seed.txt文件的URL的解析的內容，並將其替換空間與％20，我能夠抓取頁面。我已經添加在正則表達式-normalize.xml

<regex> 
<pattern> </pattern> 
<substitution>%20</substitution> 
</regex>

此外以下，我添加的正則表達式-normalize.xml在Nutch的-site.xml中的參考。但我仍面臨同樣的問題。

2013-07-23 abhijeet

喜abhijeet，你有沒有試過看看頁面的解析內容中的URL是什麼樣的？他們的空間是否完好無損，或者空間是否被'％20'替代？ – yanhan

嗨Yanhan，謝謝你的回覆..天堂有以下模式：http：//www.abc.com/efg ghi – abhijeet

我有同樣的問題，但更多的字符，所以我改變了Fetcher.java！新的URL添加到「餵養」部分的隊列！你必須找到這一行：

nURL.set(url.toString());

，並用此替代它：

nURL.set(URIUtil.encodeQuery(url.toString()));

2013-07-24 10:37:42

我有同樣的問題，並已將此添加到我的正則表達式，normalize.xml

<regex> 
    <pattern>&#x20;</pattern> 
    <substitution>%20</substitution> 
</regex>

2013-07-29 14:16:13

回答