0
我必須讀取在HDFS中的avro文件中序列化的Avro記錄。爲此,我使用AvroKeyInputFormat,因此我的映射器能夠將讀取的記錄作爲關鍵字使用。在Hadoop中使用Avro輸入格式控制分割大小
我的問題是,我如何控制分割大小?使用文本輸入格式,它包括以字節爲單位定義大小。在這裏,我需要定義每個分組將包含多少條記錄。
我想管理我的輸入目錄中的每個文件就像一個大文件。我有沒有使用CombineFileInputFormat?是否有可能與Avro一起使用?
問題si不同:在inout文件夾中,我有很多avro文件,其中每個文件都包含一些avro對象。我必須考慮所有輸入對象,並設置每個分割3-4個avro對象的限制。 –
你想讓每個任務只處理3-4個avro對象嗎?一個文件包含多少個對象?對象的大小是多少? – SNeumann
對不起,3-4是一個例子,說我必須控制每個分割有多少個對象。我更願意將所有輸入視爲一個fileonky yo split,並且我無法知道對象的大小,因爲它們也可以包含數組。 –