我是elasticsearch的新手,想索引存儲在HDFS上的網站日誌以便快速查詢。 我有一個結構良好的管道,每20分鐘運行一次腳本將數據導入HDFS。 我想將elasticsearch與它集成,以便它還基於特定字段對這些日誌進行索引,從而使用Spark SQL提供更快的查詢結果。 所以,我的問題是,我可以索引我的數據只基於特定的領域? 另外,我的日誌以avro文件格式保存。 es是否提供了一種直接索引avro序列化數據的方法,還是需要將其轉換爲其他格式?用es-hadoop索引日誌
預先感謝您。
所以,如果我存儲在elasticsearch日誌爲好,不會它需要兩倍的空間? –
我的意思是,只存儲到ES中。 –