2014-02-19 54 views
0

讓我首先說我是一個Hadoop的新手。我的要求是使用Hadoop基礎結構分析服務器日誌文件。我在這個方向上採取的第一步是使用Flume HDFS接收器對日誌文件進行流式處理並將它們原始轉儲到單節點Hadoop集羣中。現在我有一個看起來像這樣記錄的一堆文件:處理HDFS文件

時間戳REQ-ID級別模塊名消息

我的下一步是解析文件(分離出字段),並將它們存儲回去以便他們準備好進行搜索。

我應該用什麼方法呢?我可以使用Hive來做到這一點嗎? (抱歉,如果問題是天真的)。互聯網上可用的信息是壓倒性的。

回答

0

您可以使用HCatalog或Impala進行更快的查詢。

0

根據你的解釋你有時間序列data.Hadoop與HDFS本身並不意味着隨機訪問或查詢。你可以使用HBase作爲hadoop的數據庫作爲HDFS的後端文件系統。這對隨機訪問很有用。 同樣爲了您的需要解析和重新排列數據,您可以使用Hadoop的MapReduce.HBase內置的支持。 HBase可以用於MapReduce Job的輸入/輸出。

您可以從here獲取基本信息。爲了更好地理解,請閱讀HBase/HBase in Action書籍的權威指南。