我正在使用nutch爬行,但它在有空間的網站上失敗。我已經通過這個鏈接http://lucene.472066.n3.nabble.com/URL-with-Space-td619127.html但沒有得到滿意的答案。如何使用Apache Nutch抓取有空間的網址?
它適用於URL中seed.txt文件,但不會對工作中的URL頁面
我曾經有位在conf/seed.txt文件的URL的解析的內容,並將其替換空間與%20,我能夠抓取頁面。 我已經添加在正則表達式-normalize.xml
<regex>
<pattern> </pattern>
<substitution>%20</substitution>
</regex>
此外以下,我添加的正則表達式-normalize.xml在Nutch的-site.xml中的參考。但我仍面臨同樣的問題。
喜abhijeet,你有沒有試過看看頁面的解析內容中的URL是什麼樣的?他們的空間是否完好無損,或者空間是否被'%20'替代? – yanhan
嗨Yanhan,謝謝你的回覆..天堂有以下模式:http://www.abc.com/efg ghi – abhijeet