我用nutch 1.4抓取一個網站,我知道nutch不會抓取本網站中的所有鏈接。我沒有過濾器和沒有限制規則爬行。例如Nutch的爬不完此鏈接:爲什麼nutch不會搜索所有英文網站的鏈接?
http://www.irna.ir/News/30786427 /سوء-استفاده-از-نام-كمیته-امداد-برای-جمع-آوری-رای-در-مناطق-محروم/سياسي/
如果我給這個鏈接到nutch抓取,nutch從不抓取這個鏈接。這個網站是波斯語,而不是英語。 我如何抓取這個鏈接?
歡迎來到SO! 。請詳細解釋你的答案。 – 2014-02-22 07:49:00