2013-10-18 88 views
0

我按照nutch2教程,並與HBase的成功 我的問題是,當我在runtime/local/bin目錄使用以下命令 ./nutch crawl urls/seed.txt abc -depth 50 -topN 50抓取網址整合Nutch的,集成Nutch- HBase的和Solr使用戈拉

時出錯:

Exception in thread "main" java.lang.RuntimeException: job failed: name=generate: null, jobid=job_local1552667151_0002 
     at org.apache.nutch.util.NutchJob.waitForCompletion(NutchJob.java:54) 
     at org.apache.nutch.crawl.GeneratorJob.run(GeneratorJob.java:199) 
     at org.apache.nutch.crawl.Crawler.runTool(Crawler.java:68) 
     at org.apache.nutch.crawl.Crawler.run(Crawler.java:152) 
     at org.apache.nutch.crawl.Crawler.run(Crawler.java:250) 
     at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65) 
     at org.apache.nutch.crawl.Crawler.main(Crawler.java:257) 

請給我解決方案。任何解決方案將不勝感激。

+0

您能解決此問題嗎?我有同樣的問題。 –

回答

0

正如大多數人可能會建議的,hadoop.log是查找錯誤更好描述的好地方。在沒有這些信息,我將危害如下猜測:

  1. 你必須在Windows中
  2. 你正在運行在Cygwin的HBase的安裝Nutch的(試圖HBase的直接 運行Windows命令提示符下將最可能無論如何失敗)
  3. 你可能會遇到一個hdfs文件系統錯誤(檢查 hadoop.log會告訴你是否是這種情況)。

這裏張貼在Apache問題JIRA解決方法: https://issues.apache.org/jira/browse/HADOOP-7682 另一種靈魂拿出一個補丁吧: https://github.com/congainc/patch-hadoop_7682-1.0.x-win 如果這確實是你碰到的問題,請在補丁中提到的WinLocalFileSystem類並且配置nutch以在您的nutch-site.xml中添加以下內容來使用它:

<property> 
    <name>fs.file.impl</name> 
    <value>org.apache.nutch.util.WinLocalFileSystem</value> 
    <description>Enables patch for issue HADOOP-7682 on Windows 
    </description> 
</property>