處理HDFS文件

hadoop
hdfs

2014-02-19 54 views 0 likes

讓我首先說我是一個Hadoop的新手。我的要求是使用Hadoop基礎結構分析服務器日誌文件。我在這個方向上採取的第一步是使用Flume HDFS接收器對日誌文件進行流式處理並將它們原始轉儲到單節點Hadoop集羣中。現在我有一個看起來像這樣記錄的一堆文件：處理HDFS文件

時間戳REQ-ID級別模塊名消息

我的下一步是解析文件（分離出字段），並將它們存儲回去以便他們準備好進行搜索。

我應該用什麼方法呢？我可以使用Hive來做到這一點嗎？（抱歉，如果問題是天真的）。互聯網上可用的信息是壓倒性的。

來源

2014-02-19 Sandesh Hurli

回答

您可以使用HCatalog或Impala進行更快的查詢。

來源

2014-02-19 07:08:59 user2617319

根據你的解釋你有時間序列data.Hadoop與HDFS本身並不意味着隨機訪問或查詢。你可以使用HBase作爲hadoop的數據庫作爲HDFS的後端文件系統。這對隨機訪問很有用。同樣爲了您的需要解析和重新排列數據，您可以使用Hadoop的MapReduce.HBase內置的支持。 HBase可以用於MapReduce Job的輸入/輸出。

您可以從here獲取基本信息。爲了更好地理解，請閱讀HBase/HBase in Action書籍的權威指南。

來源

2014-02-19 08:40:07

相關問題

1. 何處上傳hdfs文件？
2. 從HDFS到Spark的文件處理不起作用
3. 通過Python處理HDFS中的多個文件
4. Hadoop MapReduce處理來自HDFS的不同輸入文件
5. 如何輸入HDFS文件爲R的MapReduce進行處理，並得到結果到HDFS文件
6. HDFS小文件
7. Spark架構處理保存在HDFS
8. 文件處理
9. 文件處理
10. Hdfs文件權限