用es-hadoop索引日誌

我是elasticsearch的新手，想索引存儲在HDFS上的網站日誌以便快速查詢。我有一個結構良好的管道，每20分鐘運行一次腳本將數據導入HDFS。我想將elasticsearch與它集成，以便它還基於特定字段對這些日誌進行索引，從而使用Spark SQL提供更快的查詢結果。所以，我的問題是，我可以索引我的數據只基於特定的領域？另外，我的日誌以avro文件格式保存。 es是否提供了一種直接索引avro序列化數據的方法，還是需要將其轉換爲其他格式？用es-hadoop索引日誌

預先感謝您。

來源

2015-07-20 Shubham Gupta