2011-01-31 40 views
2

我正在處理大量包含對應於美國國家航空航天局MODIS網格的數據矩陣的大文件 - 網格將地球表面分割成21,600 x 4300像素陣列。這個特定的數據集給每個像素一個整數值。Hadoop「樣式」 - 組塊與成千上萬的(k,v)對

我有大約200個文件,每月一個文件,並且需要爲每個像素創建一個時間序列。

我的問題是,對於採用這些文件之一的地圖任務,我應該將網格切成24,000像素的塊,然後將它們作爲值(以位置和時間段作爲關鍵點)發送,或者簡單地爲每個單個像素髮出一個鍵值對,像規範字數計數例子中的單詞那樣處理一個像素?

分塊工作正常,它只是在我的程序中引入了一個任意的「塊大小」變量。我的感覺是,這會爲IO節省很多時間,但這只是一種感覺,我期待真正的知情意見!

回答

0

在我工作的Hadoop項目中,我可以確認K,V對的數量對負載,CPU時間和IO有直接影響。如果你可以限制塊的數量,並保持足夠的可擴展性爲你的情況,我一定會嘗試去那裏。

+0

根據經驗,並確認我的其他研究。非常感謝! – 2011-02-01 16:32:43

相關問題