爲什麼nutch不會搜索所有英文網站的鏈接？

我用nutch 1.4抓取一個網站，我知道nutch不會抓取本網站中的所有鏈接。我沒有過濾器和沒有限制規則爬行。例如Nutch的爬不完此鏈接：爲什麼nutch不會搜索所有英文網站的鏈接？

http://www.irna.ir/News/30786427 /سوء-استفاده-از-نام-كمیته-امداد-برای-جمع-آوری-رای-در-مناطق-محروم/سياسي/

如果我給這個鏈接到nutch抓取，nutch從不抓取這個鏈接。這個網站是波斯語，而不是英語。我如何抓取這個鏈接？

2012-01-31 helen

Nutch的運行URL規範化和其他URL處理的東西在每個URL添加它的crawldb之前。你的網址可能已經過濾了。您可以從使用的插件列表中刪除這些插件（plugin.includes財產conf/nutch-site.xml），然後重試。

2012-04-03 15:37:14

一個原因，它可能無法獲取非英文網址是因爲使用在www.irna.ir網絡服務器和使用Nutch的客戶端URL編碼不同。

2014-02-22 07:31:01 user3340022

歡迎來到SO！。請詳細解釋你的答案。 – 2014-02-22 07:49:00

回答