這可能看起來有點愚蠢。但只是想知道確切的答案。假設我有一個包含2個分區的表格。如果針對一個分區列運行查詢,將在後臺運行多少個地圖作業。如果我在配置單元中查詢分區表,將運行多少個mapreduce作業
任何幫助將不勝感激!
預先感謝
這可能看起來有點愚蠢。但只是想知道確切的答案。假設我有一個包含2個分區的表格。如果針對一個分區列運行查詢,將在後臺運行多少個地圖作業。如果我在配置單元中查詢分區表,將運行多少個mapreduce作業
任何幫助將不勝感激!
預先感謝
我讀過映射器的#是基於下式確定:(輸入由塊大小劃分的大小)。 Hadoop 2的塊大小爲128 MB。
因此,我假設您可以將該分區中的文件大小除以128 MB。
所以這取決於兩個因素:
默認情況下,非分裂式的文件,Hadoop的運行將每個輸入文件一個地圖的任務。所以如果你的分區文件夾有100個輸入文件,它將運行100個映射器。例如,這將是製表符分隔的文本文件的默認值。
如果您的文件是可拆分的,它將根據您的塊大小設置進行拆分。這要求您使用序列文件等可拆分文件格式。
如果你只是使用簡單的平面文件,這是最容易推理的。希望有所幫助。
感謝您的幫助馬修 –
不客氣!使用常規的MapReduce作業,您可以指定Mappers和Reducers的數量,但配置單元是自己的事情,因爲它運行多個MapReduce作業。 –