2015-07-20 51 views
0

我是elasticsearch的新手,想索引存儲在HDFS上的網站日誌以便快速查詢。 我有一個結構良好的管道,每20分鐘運行一次腳本將數據導入HDFS。 我想將elasticsearch與它集成,以便它還基於特定字段對這些日誌進行索引,從而使用Spark SQL提供更快的查詢結果。 所以,我的問題是,我可以索引我的數據只基於特定的領域? 另外,我的日誌以avro文件格式保存。 es是否提供了一種直接索引avro序列化數據的方法,還是需要將其轉換爲其他格式?用es-hadoop索引日誌

預先感謝您。

回答

0

我建議你看看Elasticsearch,Logstash和Kibana堆棧,它應該足夠好以滿足您的需求。把它放在HDFS上,然後使用ES將是額外的開銷。

取而代之,您可以使用Logstash將數據泵入ES,在您希望查詢的任何字段上編制索引,並在不到10分鐘的運動時間內構建簡單的儀表板。閱讀本教程以獲得更好的分步指南。

http://hadooptutorials.co.in/tutorials/elasticsearch/log-analytics-using-elasticsearch-logstash-kibana.html

+0

所以,如果我存儲在elasticsearch日誌爲好,不會它需要兩倍的空間? –

+0

我的意思是,只存儲到ES中。 –