對我嘗試構建的流程採取什麼樣的方法有疑問。使用PostgreSQL和Python。不斷處理來自PostGre數據庫的數據 - 採取什麼方法?
場景:
- 我有兩個數據庫A和B
- B是A
- 數據連續流轉換成A,其需要在一個特定 方式處理的經處理版本(使用多處理),然後存儲在B.
- A中的每個新行都只需處理一次。
所以:
streamofdata ===>[數據庫A] ---->過程---->[數據庫B]
數據庫A是相當大(40 GB)和不斷增長。我的問題是關於什麼是尚未處理和放入B的新數據的確定。什麼是確定哪些行仍然需要處理的最佳方式。
什麼還沒有被處理,每次對應的主鍵是不是要我猜
的方式讓我們說新行120到130在一段時間內接觸到數據庫中的。所以我最後一行處理的行是119.是否正確的方法來查看最後一行ID(主鍵)119處理,並說現在應該處理的東西之外,現在應該處理?
還想知道是否有人對這種「實時」數據處理有任何進一步的資源。不完全確定我在技術上所尋找的是什麼。