我有一個大型數據集,作爲序列文件被攝入到HDFS中,其中的關鍵字是文件元數據併爲整個文件內容賦值。我正在使用SequenceFileInputFormat,因此我的分割基於序列文件同步點。用於在MapReduce中流式傳輸數據的自定義輸入拆分
我面臨的問題是,當我攝取真正的大文件時,我基本上將整個文件加載到Mapper/Reducer中的內存中,因爲值是整個文件內容。我正在尋找流式傳輸文件內容的方法,同時保留序列文件容器。我甚至想過編寫自定義分割,但不知道如何保留序列文件容器。
任何想法都會有所幫助。