我有這個問題,我想由別人來運行,看看我能否以更好的方式處理這個問題。如何有效地處理易失記錄
我們有300個節點集羣,我們每天處理交易信息/記錄。我們每天可以獲得約1000萬筆交易,每筆記錄大小約爲2K字節。
我們目前使用HDFS進行數據存儲,豬和蜂巢進行數據處理。在大多數情況下,我們使用外部配置單元表類型,並按事務創建日期進行分區。
業務是這樣的,我們可能會得到一個數月或數年前創建的交易的更新。例如,我可能會得到一個5年前創建的事務的更新。我們不能忽略這條記錄,而只是爲了一條記錄重新處理相應的分區。
由於這個原因我們每天都會處理1000個分區。還有更多的ETL應用程序使用這些事務表。
我知道這是對hive/hdfs架構的限制。
我相信其他國家也有這個問題,這將是真正有用的,如果你可以分享你可能已經嘗試過的選項,你怎麼在這邊?
沒有人有任何想法嗎? – Sid