4
我打算使用Hadoop和蜂巢解決以下問題:蜂巢:添加行到現有的表
我有數據流,假設代表在給定測量的溫度的形式(時間戳,溫度)的時間戳。我需要每天計算一些總量(例如,最大值)。聚合需要每天計算一次(例如在午夜)。
我想加載數據配置單元,按日期進行分區。但是,有一個問題 - 數據流中的數據不需要按時間戳排序,我收到延遲的記錄:記錄可能比它應該晚幾天到達。在這種情況下,在生成通常的聚合時,我需要計算包含該時間戳的日期的聚合。
直觀上,我想將最新記錄添加到配置單元表中的相應分區。是否有可能不重新加載整個分區? (這是一個昂貴的操作來重新加載一個分區?)