我的EMR集羣中的路徑爲'hdfs:/// logs'的日誌文件很多。每個日誌條目都是多行,但有一個起始和結束標記來劃分兩個條目。 現在,在有或沒有使用Hive的情況下處理Amazon EMR中的日誌
- 未在日誌文件中的所有條目都是有用
- 其是有用的需要,待轉化的條目和輸出需要被存儲在一個輸出文件,讓我可以有效地查詢(使用配置單元)稍後輸出日誌。
我有一個python腳本,可以簡單地採取一個日誌文件,並做一部分。和b。如上所述,但我沒有編寫任何映射器或縮減器。
Hive負責Mappers和Reducers的查詢。請告訴我是否以及如何使用python腳本在所有日誌上運行並將輸出保存在'hdfs:/// outputlogs'中?
我是Map Reduce的新手,已經看到了Word count的一些例子,但它們都有一個輸入文件。我在哪裏可以找到具有多個輸入文件的示例?