2012-10-23 77 views
4

我打算使用Hadoop和蜂巢解決以下問題:蜂巢:添加行到現有的表

我有數據流,假設代表在給定測量的溫度的形式(時間戳,溫度)的時間戳。我需要每天計算一些總量(例如,最大值)。聚合需要每天計算一次(例如在午夜)。

我想加載數據配置單元,按日期進行分區。但是,有一個問題 - 數據流中的數據不需要按時間戳排序,我收到延遲的記錄:記錄可能比它應該晚幾天到達。在這種情況下,在生成通常的聚合時,我需要計算包含該時間戳的日期的聚合。

直觀上,我想將最新記錄添加到配置單元表中的相應分區。是否有可能不重新加載整個分區? (這是一個昂貴的操作來重新加載一個分區?)

回答

1

我不認爲這是可能的,現在添加一個記錄到一個分區(或表,爲此),所以你會有在將分區加載到表之前對記錄排序 - 對我來說看起來像是一個兩階段過程。

但我相信你可以覆蓋分區,所以至少你可以在修改後的分區上進行處理。

目前,至少,配置單元是一個批處理定向系統。