我有一個運行Hadoop 2.2.0和HBase 0.98.1的三節點羣集,我需要在其上使用Nutch 2.2.1搜索器。但它只支持1.x分支的Hadoop版本。現在我可以向我的集羣提交一個Nutch作業,但是它失敗了,並且java.lang.NumberFormatException異常。 所以我的問題很簡單:我如何讓Nutch在我的環境中工作?Nutch在Hadoop 2.x
1
A
回答
3
目前無法將Nutch 2.2.1(Gora 0.3)與HBase 0.98.x集成。 請參閱:https://issues.apache.org/jira/browse/GORA-304
官方Nutch的教程建議只0.90.x HBase的分支: http://wiki.apache.org/nutch/Nutch2Tutorial
您也可以下載HBase的0.94.24-Hadoop的2.5.0我創建並測試了今天的版本: https://github.com/dobromyslov/hbase/releases/tag/0.94.24-hadoop-2.5.0
大家注意到,Nutch的2.2.1不支持HBase的0.94.x,你必須擺脫的Git分支的最新Nutch的2.X:https://github.com/apache/nutch/tree/2.x
相關問題
- 1. 探索nutch over hadoop
- 2. Nutch 2.X - 首選網址取
- 3. Hadoop 1.03和Nutch 1.5問題
- 4. 在hadoop上運行nutch,nutch在哪裏登錄?
- 5. Nutch Hadoop開發Eclipse/IntilliJ IDEA
- 6. 安裝Nutch 1.3和Hadoop
- 7. 升級\將Apache Hadoop 1.x遷移到Apache Hadoop 2.x
- 8. 爲什麼Raid不在Hadoop 2.x中?
- 9. 在Hadoop 2.x中運行C++代碼
- 10. 如何在Apache Nutch 2.x中獲得webgraph
- 11. Hadoop 2.x中的默認塊大小
- 12. Hadoop 2.x多節點羣集安裝
- 13. 優化hadoop集羣上的nutch性能
- 14. 哪個Linux版本最適合Nutch-Hadoop?
- 15. 如何用hadoop配置nutch 1.4?
- 16. Nutch 2.x沒有抓取像flipkart和jabong這樣的網站
- 17. Nutch 2.x沒有錯誤,沒有結果
- 18. 如何將apache nutch 2.x連接到遠程hbase羣集
- 19. Nutch的2.x的 「蟻蝕」 構建失敗
- 20. Nutch 2解析和鏈接
- 21. 在現有的Hadoop集羣上運行Nutch
- 22. 在Hadoop 2.x中Secondary NameNode的使用率和高可用性
- 23. 在hadoop多羣集環境中運行nutch時出錯
- 24. nutch hadoop只有一個從機正在爬行
- 25. Nutch的山不類,同時運行在Hadoop中模式
- 26. 爲什麼存在x ++和++ x,x + = 2但不是x = + 2?
- 27. 在Python 2.x和3.x
- 28. Hadoop版本似乎低於0.x,1.x和2.x,但討論YARN/MapReduce時,每頁都指Hadoop 1和Hadoop 2.0
- 29. 的Nutch在Eclipse
- 30. Hadoop的2.X線:如何「阿爾法」是「阿爾法」
昨天測試的Apache 2.x的Nutch的(從G t回購2.x分支)與提到的Apache HBase 0.94.24-hadoop-2.5.0和Apache Hadoop 2.5.0。工作得很好。用Nutch 2.x抓取並解析了幾個站點,沒有任何問題。現在嘗試編寫自定義分析器插件。這並不容易,因爲只有Nutch 1.x的一小部分文檔符合2.x.所以我必須查看源代碼和API文檔。 –