我是新來映射/減少。一個地圖任務的輸入可能在不同的服務上嗎?假設我想使用map/reduce來模擬「字數」,並且我逐行分割數據(每行一行)。是否每個地圖任務都會引用一段數據並計算每段單詞的出現次數?地圖任務輸入數據
Q
地圖任務輸入數據
0
A
回答
1
輸入文件將根據hdfs塊的大小進行拆分,並且每個分割都會產生一個地圖任務。
例如,默認情況下,hdfs塊大小爲64mb。可以說你的輸入文件大小爲50mb。當你將這個文件加載到hdfs中時,它將被拆分爲每個25mb的2個分割。因此,2個地圖任務將生成在每個輸入分割上工作。假設一個輸入分割有100行,那麼映射器類(任務)將調用映射方法100次,每行對應一個。
1
使用InputSplit類拆分數據。您可以定義自己的輸入拆分類。輸入拆分的數量等於映射器的數量。所以理論上,如果你有許多mappers作爲你的輸入行,然後你用這種方式寫你的inputsplit,那麼每一行都可以作爲map任務的輸入。一般來說,地圖任務的輸入位於同一臺機器上。只能以這種方式減少框架計劃地圖任務。我建議你閱讀一些減少地圖的基礎知識。在cloudera網站上有很好的視頻教程。
相關問題
- 1. MapReduce的地圖任務共享輸入數據
- 2. 將地圖任務輸出寫入本地文件系統?
- 3. 拆分鍵/在地圖中值輸入文件/ reduce任務
- 4. 爲每個地圖任務生成輸入文件
- 5. 地圖任務的輸入分裂正在運行的其他地圖的任務
- 6. Is InputSplit大小或受輸入文件數量影響的地圖任務數
- 7. 機架本地地圖任務和數據本地地圖任務有什麼區別?
- 8. C++ - OpenMP任務 - 地圖插入,關鍵?
- 9. 任務輸入與任務源
- 10. 根據輸入調用另一個任務的ANT任務
- 11. 將地圖任務的輸出寫入本地文件系統或HDFS?
- 12. 如何務實地用動態輸入安排芹菜任務?
- 13. 在hadoop中,如何減少任務從地圖任務中拉數據
- 14. 面料:管任務的另一個任務的輸入輸出
- 15. 設置地圖任務的數量
- 16. Hadoop:無數據本地任務
- 17. 輸入流數據不是在任務之間平均分配
- 18. 在兩個任務中使用一個輸入數據
- 19. 插入數據::地圖
- 20. Hadoop地圖任務失敗
- 21. SSIS Web服務任務XmlNode輸入POSSIBLE?
- 22. hadoop如何減少任務處理地圖分組數據
- 23. 將數據傳入任務延續
- 24. 將Hadoop配置爲將輸入文件處理爲一個地圖任務
- 25. Appengine任務隊列存儲任務計數> 0但沒有任務正在輸入任務隊列
- 26. 任務中出現異常時,根據用戶輸入多次重試任務
- 27. 陣營本地保存輸入數據
- 28. 方便地向MySQL輸入UTF8數據
- 29. 因子任務錯誤地輸出零
- 30. 使用表單輸入Google地圖數據