2014-02-18 66 views
0

我正在使用CDH4.4。我有一個正在運行的應用程序,通過avro將記錄序列化到hbase的單個列中。我正在將此表的當前索引索引移動到solrcloud,因此我正在測試MapReduceIndexerTool以對整個表執行批量索引。我有一個非常簡單的morphlines文件,它目前使用「extractHBaseCells」從HBase讀取記錄。Morphlines命令extractHBaseCells不支持hbase中的avro對象,有沒有解決方法?

我爲此設置了一個示蹤概念證明,僅索引rowkey => id並將avro blob填充到另一個字段中,以驗證是否可以將數據從HBase轉移到SolrCloud中的集合中,並且這樣可行。但我想解析avro並將這些值粘貼到Solrocuments上的自己的字段中,然後將它們提交給solrcloud。但「extractHBaseCells」的性質似乎阻止了這一點。如果有一個hbase閱讀器命令發出更多的通用輸出,然後可以流入變形線條中的avro命令,我相信我可以解決自己的問題。

是否有任何已知的解決方法可用於解析已存儲在HBase中的avro或可能解決此問題的更多morphlines命令?

回答

0

user1842757的鏈接讓我走上了正確的道路。我的問題是我的solr模式。我的架構中沒有定義「_attachment_body」字段或「_attachment_mimetype」字段。這些都是extractAvroPaths工作所必需的,但這在我發現支持morphlines或hbase-mr-indexer的任何教程,示例或pdf手冊中都沒有明確說明。

相關問題