2014-05-02 75 views
1

我有一個運行Hadoop 2.2.0和HBase 0.98.1的三節點羣集,我需要在其上使用Nutch 2.2.1搜索器。但它只支持1.x分支的Hadoop版本。現在我可以向我的集羣提交一個Nutch作業,但是它失敗了,並且java.lang.NumberFormatException異常。 所以我的問題很簡單:我如何讓Nutch在我的環境中工作?Nutch在Hadoop 2.x

回答

3

目前無法將Nutch 2.2.1(Gora 0.3)與HBase 0.98.x集成。 請參閱:https://issues.apache.org/jira/browse/GORA-304

官方Nutch的教程建議只0.90.x HBase的分支: http://wiki.apache.org/nutch/Nutch2Tutorial

您也可以下載HBase的0.94.24-Hadoop的2.5.0我創建並測試了今天的版本: https://github.com/dobromyslov/hbase/releases/tag/0.94.24-hadoop-2.5.0

大家注意到,Nutch的2.2.1不支持HBase的0.94.x,你必須擺脫的Git分支的最新Nutch的2.X:https://github.com/apache/nutch/tree/2.x

+0

昨天測試的Apache 2.x的Nutch的(從G t回購2.x分支)與提到的Apache HBase 0.94.24-hadoop-2.5.0和Apache Hadoop 2.5.0。工作得很好。用Nutch 2.x抓取並解析了幾個站點,沒有任何問題。現在嘗試編寫自定義分析器插件。這並不容易,因爲只有Nutch 1.x的一小部分文檔符合2.x.所以我必須查看源代碼和API文檔。 –