我有100 TB的一個文本文件,它具有多條記錄。我們沒有給出每個記錄需要多少行。一條記錄可以是5行,其他可能是6行,另一條可能是4行。它不確定每條記錄的線路大小可能會有所不同。如何處理inputsplit的多行記錄?
所以我不能使用默認的TextInputFormat,我寫了我自己的inputformat和一個自定義的記錄閱讀器,但我的困惑是:當發生分裂時,我不確定每個分裂是否包含完整記錄。記錄的某些部分可以在分裂1中進行,另一部分在分裂2中進行。但這是錯誤的。
所以,你能不能建議如何讓我保證,我全力去記錄在一個InputSplit處理這種情況?
在此先感謝 -JE