我有一個基於文本的壓縮日誌文件的目錄,每個文件都包含許多記錄。在舊版本的Hadoop中,我將擴展MultiFileInputFormat
以返回解壓縮日誌文件的自定義RecordReader
,並從那裏繼續。但我試圖使用Hadoop 0.20.2。解析Hadoop中的日誌目錄0.20.2
在Hadoop 0.20.2文檔中,我注意到MultiFileInputFormat
已被棄用,轉而使用CombineFileInputFormat
。但要擴展CombineFileInputFormat
,我必須使用已棄用的類JobConf
和InputSplit
。什麼是MultiFileInputFormat
的現代等價物,或從文件目錄獲取記錄的現代方式?