1

我有一個elasticsearch集羣,它有大量的數據。我想從elasticsearch中將所有數據提取到Hadoop(Hive)中。我使用了Elasticsearch-Hadoop驅動程序,以便通過使用Hive外部表從elasticsearch提取數據,但速度太慢並且任務總是失敗。Elasticsearch-Hadoop獲取非索引數據

我的第一個問題是從我現有的elasticsearch集羣中獲取所有數據。 第二個問題是複製一天或一小時內流入HDFS上的elasticsearch的所有數據。

我該如何實現這些目標?

在此先感謝。

回答

0

您可以使用hadoop系統作爲倉庫來存儲數據,從那裏您可以將數據推送到elasticsearch &反之亦然。嘗試僅對您想要進行分析的數據使用elasticsearch,然後從elasticsearch刪除其餘數據。因此,每次你想對不同方面進行分析時,都會從hadoop &中使用它。

+0

請參閱elasticsearch mapreduce api以從elasticsearch讀取數據。嘗試編寫自定義MR作業來做同樣的事情。 – 2015-04-10 10:02:17