對不起,我沒有深刻了解的HBase和Hadoop MapReduce的,但我想你能不能幫我找到使用它們的方式,或者你可以建議我需要框架。分佈式多重映射
第一部分
還有就是,我要存儲的地方記錄1流。它們應該可以通過取決於它們的一些鍵來訪問。幾個記錄可以具有相同的密鑰。有相當多的人。我必須通過超時刪除舊記錄。
也有記錄的第2流,這是非常密集了。對於每一個記錄(參數記錄)我需要:得到這樣的說法,記錄的鍵1中sTREM所有記錄,查找第一個相應的記錄,從第1流存儲刪除它,返回結果合併這些的(RES1)兩個記錄。
第二部分
記錄第三流就像是第一次。記錄應該可以通過密鑰訪問(與第一部分的不同)。像往常一樣的幾個記錄將具有相同的密鑰。在第一流中沒有像他們那麼多。我必須通過超時刪除舊記錄。
對於每個RES1(參數記錄)我要:從第3的sTREM的所有記錄與該記錄的另一個關鍵,地圖爲這些記錄RES1作爲參數,減少成結果。第三個流記錄應保持未修改的存儲狀態。
使用相同的密鑰的記錄者優先被存儲在同一個節點,並寧願被節點,其中上運行基於給定的參數記錄的是獲得通過的關鍵記錄,並提出一些操作的過程那個記錄是。
HBase和Hadoop MapReduce適用於我的情況嗎?以及這樣的應用程序應該如何(基本思路)?如果答案是否定的,是否有框架來buld這樣的應用程序?
請提問,如果你不能得到我想要的東西。
我想澄清一下:什麼意思是「他們應該可以通過某些鍵取決於他們」?這是否意味着有一些常見的密鑰集,每個記錄都有一些密鑰> – 2012-03-28 18:53:56
這意味着有一些函數可以計算記錄密鑰,就像散列函數一樣。 – 2012-03-29 07:15:10
我是否理解你有幾條記錄,它們之間是一對多的關係,你想要「動態地」加入它們? – 2012-03-29 09:03:19