2012-06-21 23 views
0

按照Apache Nutch的教程在這裏:我正在關注的Nutch的教程,並得到了「沒有網址可獲取」錯誤

正如本教程所指出的,我已經把我的正則表達式,urlfilter的最後一行.txt文件到:

+^http://([a-z0-9]*\.)*nutch.apache.org/ 

我的nutch-site.xml文件只包含線

<property> 
<name>http.agent.name</name> 
<value>My Nutch Spider</value> 
</property> 

而且我seed.txt文件是:

http://nutch.apache.org/ 

然而,當我與

bin/nutch crawl urls -dir crawl -depth 3 -topN 5 

爬,我得到一個 「沒有網址可獲取」 的錯誤。有人知道爲什麼

回答

0

配置對我來說很好看。您在運行時/本地文件夾中進行了這些更改嗎? seed.txt將在NUTCH_HOME /運行/本地/網址文件夾和 正則表達式,urlfilter.txt和Nutch的-site.xml中會在NUTCH_HOME /運行/本地/ conf文件夾

NUTCH_HOME是安裝目錄

相關問題