2012-11-22 76 views
0

我在hadoop多羣集環境中運行nutch。使用下面的命令在hadoop多羣集環境中運行nutch時出錯

$斌/ hadoop的罐子/home/nutch/nutch/runtime/deploy/nutch-1.5.1.job org.apache.nutch正在執行的nutch時

Hadoop是引發錯誤.crawl.Crawl網址-dir網址-depth 1 -topN 5

錯誤: 異常在線程 「主」 java.io.IOException的:不是一個文件: HDFS://主:54310 /用戶/的nutch /在org.apache.hadoop.mapred.JobClient.submitJob(JobClient.java:515) 在org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:753) at com.bdc.dod.dashboard.BDCQueryStatsViewer.run(BDCQueryStatsViewer.java:829) at org.apache.hadoop.util.ToolRunner .run(ToolRunner.java:65) at com.bdc.dod.dashboard.BDCQueryStatsViewer.main(BDCQueryStatsViewer.java:796) at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) at sun.reflect.NativeMethodAccessorImpl。在org.apache.hadoop的java.lang.reflect.Method.invoke(Method.java:585) 處調用(NativeMethodAccessorImpl.java:39) (在DelegatingMethodAccessorImpl.java:25) 。 util.RunJar.main(RunJar.java:155)

我嘗試瞭解決這個問題的可能方法,並修復了在/ local/conf路徑中設置http.agent.name等所有問題。而且我之前安裝的並且很流暢。

有人可以提出一個解決方案嗎?

順便說一句,我跟着link進行安裝和運行。

回答

0

我可以解決這個問題。當將文件從本地文件系統複製到HDFS目標文件系統時,它曾經是這樣的:bin/hadoop dfs -put〜/ nutch/url網址。

但它應該是「bin/hadoop dfs -put〜/ nutch/urls/* urls」,這裏urls/*將允許子目錄。