0
按照Apache Nutch的教程在這裏:我正在關注的Nutch的教程,並得到了「沒有網址可獲取」錯誤
正如本教程所指出的,我已經把我的正則表達式,urlfilter的最後一行.txt文件到:
+^http://([a-z0-9]*\.)*nutch.apache.org/
我的nutch-site.xml文件只包含線
<property>
<name>http.agent.name</name>
<value>My Nutch Spider</value>
</property>
而且我seed.txt文件是:
http://nutch.apache.org/
然而,當我與
bin/nutch crawl urls -dir crawl -depth 3 -topN 5
爬,我得到一個 「沒有網址可獲取」 的錯誤。有人知道爲什麼