Hadoop「樣式」 - 組塊與成千上萬的（k，v）對

我正在處理大量包含對應於美國國家航空航天局MODIS網格的數據矩陣的大文件 - 網格將地球表面分割成21,600 x 4300像素陣列。這個特定的數據集給每個像素一個整數值。Hadoop「樣式」 - 組塊與成千上萬的（k，v）對

我有大約200個文件，每月一個文件，並且需要爲每個像素創建一個時間序列。

我的問題是，對於採用這些文件之一的地圖任務，我應該將網格切成24,000像素的塊，然後將它們作爲值（以位置和時間段作爲關鍵點）發送，或者簡單地爲每個單個像素髮出一個鍵值對，像規範字數計數例子中的單詞那樣處理一個像素？

分塊工作正常，它只是在我的程序中引入了一個任意的「塊大小」變量。我的感覺是，這會爲IO節省很多時間，但這只是一種感覺，我期待真正的知情意見！

在我工作的Hadoop項目中，我可以確認K，V對的數量對負載，CPU時間和IO有直接影響。如果你可以限制塊的數量，並保持足夠的可擴展性爲你的情況，我一定會嘗試去那裏。

2011-02-01 08:22:43

根據經驗，並確認我的其他研究。非常感謝！ – 2011-02-01 16:32:43

回答