2012-03-31 26 views
0

我試圖運行Apache NutchEclipse。我遵循http://wiki.apache.org/nutch/RunNutchInEclipse的說明。然而,「parse-html」(包括java和test)的來源都有錯誤。我跑也無妨,它讀取並獲取URL的從seed.txt並返回此錯誤:Eutch中的Nutch錯誤

Fetcher: finished at 2012-03-31 17:21:56, elapsed: 00:00:07 
ParseSegment: starting at 2012-03-31 17:21:56 
ParseSegment: segment: crawl/segments/20120331172142 
Exception in thread "main" java.io.IOException: Job failed! 

我想指出的是,我的目標是從獲得指標的Nutch並將其存儲在MongoDB

+0

我不知道如果Nutch的文件是最新的。最好轉向linux(或VM)並解決它。即使你有辦法解決這個問題,你會得到更多的提前,如果你堅持與Windows – 2012-04-09 18:38:37

+0

我已經在Ubuntu工作。感謝幫助。 – 2012-04-14 11:45:46

回答

0

我發現3個罐子,並將它們作爲外部罐子添加到項目中,並且工作。這些罐子是:cyberneko.jarrome-0.9.jartagsoup-1.2.jar,你可以通過簡單的谷歌搜索找到所有的東西。

0

我遇到了同樣的問題。這裏有兩種方式可能有所幫助:

  • 修改conf/log4j.properties文件以報告DEBUG消息;
  • 讀取通常位於$ NUTCH_HOME或$ NUTCH_HOME/logs中的hadoop.log文件。

通過檢查這些消息,你應該能夠發現問題。

這裏是關於在Eclipse中運行Nutch的教程,其中還討論了幾種錯誤處理。

1

以下內容添加到ivy.xml

<dependency org="rome" name="rome" rev="0.9" /> 
<dependency org="net.sourceforge.nekohtml" name="nekohtml" rev="1.9.13" /> 
<dependency org="org.ccil.cowan.tagsoup" name="tagsoup" rev="1.2.1" />