Nutch的1.7保持從Oozie的

2014-12-22 36 views 0 likes

運行時更改文件系統的本地I建成並通過命令行就好Nutch的1.7保持從Oozie的

的hadoop的jar Apache的ntuch-1.7.job org.apache.nutch.crawl.Crawl HDFS跑Nutch的1.7：//MYSERVER/Nutch的/網址-dir HDFS：// MYSERVER/Nutch的/爬行-depth 5 -topN100

但是當我從Oozie的跑同樣的事情，它讓越來越錯誤FS：HDFS：// MYSERVER/Nutch的/ crawl/crawldb/current，expected：file：///

我簽入源代碼，每次代碼都沒有

FileSystem fs = new JobClient（job）.getFs（）;

fs被改回本地fs。

我覆蓋了這些語句的所有實例，然後作業在提取階段中死掉，只是說 java.io.IOException：作業失敗！在org.apache.hadoop.mapred.JobClient.runJob（JobClient.java:838）

它真的出現，從Oozie的運行造成JobClient類的錯誤版本（從Hadoop的core.jar添加）被加載。

以前有人看過這個嗎？

來源

2014-12-22 bhomass

回答

看來oozie conf目錄缺少正確的* -site.xml文件。我添加了mapred-site.xml到/ etc/oozie/conf/hadoop-conf目錄，並且這個問題消失了。

來源

2014-12-23 00:56:19 bhomass

hello @ user1058511，如果我要求分享您的oozie工作流程作業文件，您可以介意嗎？我是oozie的新手，我想用Oozie自動化這個過程？作爲參考請按照此鏈接[另一個問題]（http://stackoverflow.com/questions/36219092/nutch-automated-crawl-using-oozie） –

這是很久以前。我不再爲同一家公司工作，也沒有代碼。 – bhomass

相關問題

1. org.apache.nutch.searcher in nutch 1.7
2. 從Nutch 1.7中排除沒有'www'的網址抓取
3. 從Oozie的
4. Magento 1.7：從頂部刪除分頁並保持底部分頁
5. Monodevelop SVN 1.7支持
6. Magento的1.7 - 從URL
7. 運行PIG從Oozie的
8. apache nutch履帶 - 保持只檢索單個網址
9. 保持的UIDatePicker從TableView中
10. GWT 1.7是否支持Class.getSimpleName（）？