2012-06-29 62 views
1

我有一個基於文本的壓縮日誌文件的目錄,每個文件都包含許多記錄。在舊版本的Hadoop中,我將擴展MultiFileInputFormat以返回解壓縮日誌文件的自定義RecordReader,並從那裏繼續。但我試圖使用Hadoop 0.20.2。解析Hadoop中的日誌目錄0.20.2

在Hadoop 0.20.2文檔中,我注意到MultiFileInputFormat已被棄用,轉而使用CombineFileInputFormat。但要擴展CombineFileInputFormat,我必須使用已棄用的類JobConfInputSplit。什麼是MultiFileInputFormat的現代等價物,或從文件目錄獲取記錄的現代方式?

回答

2

MultiFileInputFormat的現代等價物或從文件目錄中獲取記錄的現代方法是什麼?

o.a.h.mapred。*有舊的API,而o.a.h.mapreduce。*是新的API。某些輸入/輸出格式尚未遷移到新的API。 MultiFileInputFormat/CombineFileInputFormat尚未在20.2中遷移到新API。我記得有一個JIRA被開放來遷移丟失的格式,但我不記得Jira#。

但是爲了擴展CombineFileInputFormat,我必須使用廢棄的類JobConf和InputSplit。

現在應該可以使用舊的API。在Apache論壇中查看response。我不確定停止對舊API的支持的確切計劃。我不認爲很多人已經開始使用新的API,所以我認爲它將在可預見的未來得到支持。