2014-02-26 88 views
8

我洛以百萬計的小日誌文件每週做:elasticsearch VS HBase的/ Hadoop的

  • 即席查詢數據挖掘
  • 加盟,比較,篩選和計算值
  • 每天都有很多很多的全文搜索與Python
  • 來看,這種操作的所有數百萬文檔中,有時

我的第一個想法是將所有文檔放在HBase/HDFS中,並運行Hadoop作業生成統計結果。

的問題是:一些結果必須是接近實時。

於是,經過一番研究,我發現ElasticSearch,現在我想傳遞的所有數百萬份文件,並使用DSL查詢,生成統計結果。

這是個好主意嗎? ElasticSearch似乎很容易處理數百萬/數十億的文檔。

回答