我正在通過hadoop權威指南,它清楚地解釋了輸入分割。 它是這樣Hadoop輸入分割大小與塊大小
輸入拆分不包含實際數據,而它具有存儲 位置數據在HDFS
和
通常情況下,輸入分配的大小與塊大小相同
1)假設一個64MB的塊位於節點A上,並在2個其他節點(B,C)之間複製,並且map-reduce程序的輸入分割大小爲64MB,那麼這個分割對於節點A而言是否具有位置?或者它是否具有所有三個節點A,b,C的位置?
2)由於數據對所有三個節點都是本地的,框架如何決定(選擇)一個在特定節點上運行的maptask?
3)如果輸入拆分大小大於或小於塊大小,它是如何處理的?
爲什麼輸入拆分2和3的大小是100 MB,第一個是200 MB? – ssinganamalla
我們可以爲每個塊分配不同的輸入分配嗎?或者它只是邏輯表示 – Akki