在hadoop多羣集環境中運行nutch時出錯

我在hadoop多羣集環境中運行nutch。使用下面的命令在hadoop多羣集環境中運行nutch時出錯

$斌/ hadoop的罐子/home/nutch/nutch/runtime/deploy/nutch-1.5.1.job org.apache.nutch正在執行的nutch時

Hadoop是引發錯誤.crawl.Crawl網址-dir網址-depth 1 -topN 5

錯誤：異常在線程「主」 java.io.IOException的：不是一個文件： HDFS：//主：54310 /用戶/的nutch /在org.apache.hadoop.mapred.JobClient.submitJob（JobClient.java:515）在org.apache.hadoop.mapred.JobClient.runJob（JobClient.java:753） at com.bdc.dod.dashboard.BDCQueryStatsViewer.run（BDCQueryStatsViewer.java:829） at org.apache.hadoop.util.ToolRunner .run（ToolRunner.java:65） at com.bdc.dod.dashboard.BDCQueryStatsViewer.main（BDCQueryStatsViewer.java:796） at sun.reflect.NativeMethodAccessorImpl.invoke0（Native Method） at sun.reflect.NativeMethodAccessorImpl。在org.apache.hadoop的java.lang.reflect.Method.invoke（Method.java:585）處調用（NativeMethodAccessorImpl.java:39）（在DelegatingMethodAccessorImpl.java:25）。 util.RunJar.main（RunJar.java:155）

我嘗試瞭解決這個問題的可能方法，並修復了在/ local/conf路徑中設置http.agent.name等所有問題。而且我之前安裝的並且很流暢。

有人可以提出一個解決方案嗎？

順便說一句，我跟着link進行安裝和運行。

來源

2012-11-22 Swamy

我可以解決這個問題。當將文件從本地文件系統複製到HDFS目標文件系統時，它曾經是這樣的：bin/hadoop dfs -put〜/ nutch/url網址。

但它應該是「bin/hadoop dfs -put〜/ nutch/urls/* urls」，這裏urls/*將允許子目錄。

來源

2012-11-23 01:40:49 Swamy

在hadoop多羣集環境中運行nutch時出錯

回答

相關問題