我有一個具有以下輸入文件拆分鍵/在地圖中值輸入文件/ reduce任務
File1 value1
File1 value2
File2 value3
File2 value4
映射器將訪問的文件名並搜索它的具體價值的MapReduce任務。
問題: 我想要優化技術來優化這些文件的磁盤訪問。我需要將相同的文件ID分配給相同的映射器。所以我可以確保該文件一次只能由一個任務訪問。
例子: 要求
Mapper 1: File1 (value1), File1 (value2)
Mapper 2: File2 (value3), File2 (value4)
不要求:
Mapper 1: File1 (value1), File2 (value3)
Mapper 2: File1 (value2), File2 (value4)
任何幫助嗎?
排序後會發生什麼? – 2012-07-23 00:49:30