我正在嘗試構建數據管理(DM)解決方案,其中涉及大量數據提取,通過一些數據域規則,替換(擴充),在發送之前標記錯誤數據到下游系統。檢查值替換的規則可以像數據元素應該滿足的可允許的閾值數值一樣簡單,更復雜一些,例如使用用於值域值池的主數據查找。#Apache-flink:用於數據管理的用例
您認爲Apache Flink可以成爲此類處理的良好選擇嗎?是否可以定義flink運算符來查找(使用主數據)每個元組流經它的數據?我認爲在後一個問題上使用Apache Flink有一些缺點 - 1)查找可能是阻塞操作,會降低吞吐量; 2)如果操作員功能必須獲取主數據,則無法完成檢查點和持久化操作員狀態從其他地方。
有什麼想法?在上述用例中還有其他一些最好的工具嗎?
謝謝