解析Hadoop中的日誌目錄0.20.2

java
hadoop

2012-06-29 93 views 1 likes

我有一個基於文本的壓縮日誌文件的目錄，每個文件都包含許多記錄。在舊版本的Hadoop中，我將擴展MultiFileInputFormat以返回解壓縮日誌文件的自定義RecordReader，並從那裏繼續。但我試圖使用Hadoop 0.20.2。解析Hadoop中的日誌目錄0.20.2

在Hadoop 0.20.2文檔中，我注意到MultiFileInputFormat已被棄用，轉而使用CombineFileInputFormat。但要擴展CombineFileInputFormat，我必須使用已棄用的類JobConf和InputSplit。什麼是MultiFileInputFormat的現代等價物，或從文件目錄獲取記錄的現代方式？

來源

2012-06-29 icecream

回答

MultiFileInputFormat的現代等價物或從文件目錄中獲取記錄的現代方法是什麼？

o.a.h.mapred。*有舊的API，而o.a.h.mapreduce。*是新的API。某些輸入/輸出格式尚未遷移到新的API。 MultiFileInputFormat/CombineFileInputFormat尚未在20.2中遷移到新API。我記得有一個JIRA被開放來遷移丟失的格式，但我不記得Jira＃。

但是爲了擴展CombineFileInputFormat，我必須使用廢棄的類JobConf和InputSplit。

現在應該可以使用舊的API。在Apache論壇中查看response。我不確定停止對舊API的支持的確切計劃。我不認爲很多人已經開始使用新的API，所以我認爲它將在可預見的未來得到支持。

來源

2012-06-29 04:48:02

相關問題

1. Hadoop日誌文件分析
2. 的Hadoop：/usr/lib/hadoop-0.20.2/conf/slaves：沒有這樣的文件或目錄
3. Hadoop上的Mahout 0.9 0.20.2
4. hadoop日誌記錄工具？
5. Hadoop啓用日誌記錄
6. Hadoop的 - 分析日誌文件（Java）的
7. 導入hadoop/pig中日誌的多級目錄
8. 解析碼頭日誌記錄
9. QRadar，解析日誌
10. 解析skype日誌