0
通常,hadoop輸入分割大小定義了處理數據的映射器(容器)的數量。可以使mapreudce輸入拆分大小大於容器或tasktracker jvm堆大小嗎?
例如,如果文件爲2GB(塊大小爲1GB,則使用2個塊來存儲此文件),則該文件將存儲在2個HDFS塊中。但是,如果我將輸入拆分大小指定爲2GB,則將分配1個映射器來處理此文件。如果我沒有指定分割大小,那麼將分配兩個映射器(每個塊1個映射器)。
現在的問題是 - 如果我的映射器jvm堆大小隻有1GB,而我使用輸入拆分大小爲2GB?我的映射器JVM會耗盡內存嗎?總是有輸入分割大小等於或小於映射器jvm堆大小的好習慣嗎?