我們有一個Hadoop集羣(Hadoop 0.20),我想用Nutch 1.2通過HTTP將某些文件導入HDFS,但是我無法讓Nutch在集羣上運行。在現有的Hadoop集羣上運行Nutch
我從$ NUTCH_HOME /斌/ Nutch的腳本更新$ HADOOP_HOME /斌/ Hadoop的腳本到Nutch的jar添加到類路徑中(其實我已經複製類路徑設置爲無,增加了部分在$ NUTCH_HOME/lib目錄/ *到classpath),然後我試圖運行下面的命令來注入URLS:
hadoop jar nutch*.jar org.apache.nutch.crawl.Injector -conf conf/nutch-site.xml crawl_path urls_path
,但我得到了java.lang.RuntimeException: x point org.apache.nutch.net.URLNormalizer not found.
的$ N UTCH_HOME/conf目錄/ Nutch的-site.xml中配置文件設置該屬性
<property>
<name>mapreduce.job.jar.unpack.pattern</name>
<value>(?:classes/|lib/|plugins/).*</value>
</property>
的解決方法,以迫使/插件目錄拆包作爲建議:When nutch is run on hadoop > 0.20.2 (or cdh) it will not find plugins because MapReduce will not unpack plugin/ directory from the job's pack (due to MAPREDUCE-967),但似乎對我來說,沒有工作。
有沒有人遇到過這個問題?你有關於如何在現有Hadoop上運行Nutch的分步教程?
由於提前,
米哈埃拉
不,因爲我找到了另一種解決方案。你可以說得更詳細點嗎?什麼是TS和NS參數以及您在hadoop安裝時複製了哪些文件,以及您將哪些文件添加到了nutch腳本中?如果我有時間可能我會嘗試這種方式。謝謝 – mihaela 2011-03-17 15:46:43