尋找針對200多個分佈式系統(Windows,AS400,Linux等)的ETL系統的任何建議。分佈式ETL問題
我們每個月都會收集來自所有客戶的數據(不管系統類型),收回數據,一起處理,然後將聚合解決方案發回給他們。我的任務是實現這個系統的自動化 - 關於如何強有力地實現這一點的任何建議,我真的不想重新發明輪子。我不擁有我從中提取數據的任何系統,這使得此任務更加困難,但可以安裝客戶端。
我已經創建了一個Java原型客戶機/服務器體系結構與FTP運輸,但它感覺脆弱。我應該注意到,不同系統的所有提取/轉換代碼已經存在於Java中(儘管是遺留的)。
我應該提到我們目前每個月拉一次數據,但是每週都在努力。
任何洞察力是讚賞。
聽起來像你需要的是企業服務總線。這是一個在多個不同系統之間進行轉換,路由和消息交換的系統。你可以看看Mule或Apache ServiceMix。您的每個系統都可以是提供者和使用者,他們可以提供數據,並且可以讓您的處理引擎使用,然後將結果返回到原始系統可以使用的ESB中。 – Kylar 2010-03-18 16:47:55
另外,FTP可能不是一個好的解決方案。像JMS這樣的東西可能更適合,這取決於數據的類型和大小。 – Kylar 2010-03-18 16:49:36
這些看起來很有希望,我會檢查出來。謝謝。 – Pythonicus 2010-03-18 19:47:28