2016-06-20 64 views
-2

我正在處理一個問題:我想製作一個預測基礎架構的數據流程化&。大數據架構:帶Hive或Hadoop的Elasticsearch-Kibana

我想到Hdfs上的Kibana + Elasticsearch(帶ES-Hadoop),& Hdfs上的Spark(Python)進行了模型化。

我的問題是:我可以使用ES正確索引Hdfs中的數據,還是應該在Elasticsearch & Hdfs之間使用Hive或Spark?

我不知道哪種架構是最好的選擇。

回答

0

ES-Hadoop將允許您使用Elasticsearch直接在HDFS中索引數據。例如,如果您需要在從HDFS到ES的途中處理數據,例如根據某些條件執行查找或篩選出數據,則可以使用類似StreamSets Data Collector的工具 - 請參閱the blog post瞭解更多細節。

完全披露 - 我是StreamSets的社區冠軍。

+0

我不知道我的問題是否是明確的......我的意思是,直接在HDFS上索引數據是好還是用Hive索引數據更好? –

0

如果你的問題是關於在蜂巢和hadoop中索引的性能差異....不會有任何區別。即使在配置單元的情況下,數據也存儲在HDFS中,並且可以通過蜂巢中的外部表完成訪問......您想使用索引的方式將決定您的選擇...... Hive將提供數據結構和您可以應用許多內置函數來操作數據...

+0

Hive是否複製了存儲在HDFS中的數據或者是否在HDFS上提供了一個結構?我的意思是文件系統和Hive中的數據? –

+0

如果它的外部表格...數據只存在於hdfs中,並且不在hive倉庫中複製... –