我們必須將存儲從應用(電子商務訂單更新,交貨,取消,新訂單等)產生的數據的一些MongoDB的收藏品。目前,我們正在遵循着傳統的ETL的方法來計劃數據拉取(Covert在s3/Staging負載中存檔)並加載到DW.隨着數據量的增加,我們覺得這是一種效率低下的方式,因爲與實時流/相似性相比,我們至少在一天內生成報告一種新的ETL方法。因此,作爲流式播放選項,首先我會讀到非常受歡迎的Apache Kafka。但面臨的最大挑戰是如何將此MongoDB集合轉換爲Kafka主題。 我讀了MongoDb Streaming Out Inserted Data in Real-time (or near real-time)。我們沒有使用加蓋集合,因此推薦的解決方案對我們不起作用。近實時從蒙戈DB數據流數據倉庫來
MongoDB的集合可以是一個卡夫卡製片人? 有沒有更好的辦法來拉從MongoDB的實時/近實時數據到目標DB/S3除了卡夫卡 注:我喜歡一個Python的解決方案,可以很容易地集成到我們當前的工作流比Java/Scala的。
感謝