8
我洛以百萬計的小日誌文件每週做:elasticsearch VS HBase的/ Hadoop的
- 即席查詢數據挖掘
- 加盟,比較,篩選和計算值
- 每天都有很多很多的全文搜索與Python
- 來看,這種操作的所有數百萬文檔中,有時
我的第一個想法是將所有文檔放在HBase/HDFS中,並運行Hadoop作業生成統計結果。
的問題是:一些結果必須是接近實時。
於是,經過一番研究,我發現ElasticSearch,現在我想傳遞的所有數百萬份文件,並使用DSL查詢,生成統計結果。
這是個好主意嗎? ElasticSearch似乎很容易處理數百萬/數十億的文檔。