用於在MapReduce中流式傳輸數據的自定義輸入拆分

我有一個大型數據集，作爲序列文件被攝入到HDFS中，其中的關鍵字是文件元數據併爲整個文件內容賦值。我正在使用SequenceFileInputFormat，因此我的分割基於序列文件同步點。用於在MapReduce中流式傳輸數據的自定義輸入拆分

我面臨的問題是，當我攝取真正的大文件時，我基本上將整個文件加載到Mapper/Reducer中的內存中，因爲值是整個文件內容。我正在尋找流式傳輸文件內容的方法，同時保留序列文件容器。我甚至想過編寫自定義分割，但不知道如何保留序列文件容器。

任何想法都會有所幫助。

來源

2013-11-15 Chitra

由於以下兩個原因，自定義拆分方法不適用於此方案。

1）整個文件正在加載到Map節點，因爲Map函數需要整個文件（因爲value =整個內容）。如果你分割文件，Map函數只接收一個部分記錄（值），它會失敗。

2）序列文件容器可能將您的文件視爲「單個記錄」文件。所以，它最多隻有1個同步點，即在Header之後。因此，即使您保留序列文件容器的同步點，整個文件也會在現在加載時加載到地圖節點。

來源

2013-11-15 13:05:28 Raja

如果編寫自定義分割，我有關於丟失序列文件同步點的疑慮。我正在考慮修改序列文件輸入格式/記錄讀取器來返回文件內容的塊而不是整個文件，但是爲每個塊返回相同的密鑰。

分塊策略類似於在MapReduce中計算文件分割的方式。

來源

2013-11-15 15:22:50 Chitra

用於在MapReduce中流式傳輸數據的自定義輸入拆分

回答

相關問題