2016-09-06 58 views
0

我正在尋找相當於hadoop的InputFormat的東西。但是我沒有Hadoop的.java類。我的問題是如何在Spark中完成,而不使用Hadoop識別輸入的方式。 對不起,如果這是一個愚蠢的問題,但我對Hadoop/Spark極爲新穎。 謝謝如何判斷文件應該被分割爲哪些輸入?

+0

用於讀取文件Spark依賴於Hadoop輸入格式。 – 2016-09-06 21:40:16

+0

那麼,編寫一個自定義的InputFormat是一個必要的步驟?如果是這樣,那麼謝謝,至少現在我知道如何繼續。任何〜babysteps〜文檔,我可以瞭解更多? – divmermarlav

+1

我相信任何Hadoop指南都可以。 – 2016-09-06 21:55:19

回答

0

我推測,在MR InputFormat的情況下,數據將很小,因爲它主要用於定義連貫數據組(要在單個映射或MR中處理)。因此,定義連貫組太大而不適合內存的文件是不太可能的。所以有可能從InputFormat中讀取數據並在Spark中將其緩存在內存中。稍後,您可以閱讀該文件的內容,創建一個迭代器(它將識別數據部分,稱爲Hive分區),然後使用此迭代器爲數據部分生成動態路徑。

相關問題