2012-01-31 18 views
0

我用nutch 1.4抓取一個網站,我知道nutch不會抓取本網站中的所有鏈接。我沒有過濾器和沒有限制規則爬行。例如Nutch的爬不完此鏈接:爲什麼nutch不會搜索所有英文網站的鏈接?

http://www.irna.ir/News/30786427 /سوء-استفاده-از-نام-كمیته-امداد-برای-جمع-آوری-رای-در-مناطق-محروم/سياسي/

如果我給這個鏈接到nutch抓取,nutch從不抓取這個鏈接。這個網站是波斯語,而不是英語。 我如何抓取這個鏈接?

回答

0

Nutch的運行URL規範化和其他URL處理的東西在每個URL添加它的crawldb之前。你的網址可能已經過濾了。您可以從使用的插件列表中刪除這些插件(plugin.includes財產conf/nutch-site.xml),然後重試。

0

一個原因,它可能無法獲取非英文網址是因爲使用在www.irna.ir網絡服務器和使用Nutch的客戶端URL編碼不同。

+0

歡迎來到SO! 。請詳細解釋你的答案。 – 2014-02-22 07:49:00

相關問題