如何判斷文件應該被分割爲哪些輸入？

我正在尋找相當於hadoop的InputFormat的東西。但是我沒有Hadoop的.java類。我的問題是如何在Spark中完成，而不使用Hadoop識別輸入的方式。對不起，如果這是一個愚蠢的問題，但我對Hadoop/Spark極爲新穎。謝謝如何判斷文件應該被分割爲哪些輸入？

來源

2016-09-06 divmermarlav

用於讀取文件Spark依賴於Hadoop輸入格式。 – 2016-09-06 21:40:16

那麼，編寫一個自定義的InputFormat是一個必要的步驟？如果是這樣，那麼謝謝，至少現在我知道如何繼續。任何〜babysteps〜文檔，我可以瞭解更多？ – divmermarlav

我相信任何Hadoop指南都可以。 – 2016-09-06 21:55:19

我推測，在MR InputFormat的情況下，數據將很小，因爲它主要用於定義連貫數據組（要在單個映射或MR中處理）。因此，定義連貫組太大而不適合內存的文件是不太可能的。所以有可能從InputFormat中讀取數據並在Spark中將其緩存在內存中。稍後，您可以閱讀該文件的內容，創建一個迭代器（它將識別數據部分，稱爲Hive分區），然後使用此迭代器爲數據部分生成動態路徑。

來源

2016-09-07 06:24:09 abhiieor

如何判斷文件應該被分割爲哪些輸入？

回答

相關問題