2010-03-18 48 views
0

尋找針對200多個分佈式系統(Windows,AS400,Linux等)的ETL系統的任何建議。分佈式ETL問題

我們每個月都會收集來自所有客戶的數據(不管系統類型),收回數據,一起處理,然後將聚合解決方案發回給他們。我的任務是實現這個系統的自動化 - 關於如何強有力地實現這一點的任何建議,我真的不想重新發明輪子。我不擁有我從中提取數據的任何系統,這使得此任務更加困難,但可以安裝客戶端。

我已經創建了一個Java原型客戶機/服務器體系結構與FTP運輸,但它感覺脆弱。我應該注意到,不同系統的所有提取/轉換代碼已經存在於Java中(儘管是遺留的)。

我應該提到我們目前每個月拉一次數據,但是每週都在努力。

任何洞察力是讚賞。

+1

聽起來像你需要的是企業服務總線。這是一個在多個不同系統之間進行轉換,路由和消息交換的系統。你可以看看Mule或Apache ServiceMix。您的每個系統都可以是提供者和使用者,他們可以提供數據,並且可以讓您的處理引擎使用,然後將結果返回到原始系統可以使用的ESB中。 – Kylar 2010-03-18 16:47:55

+0

另外,FTP可能不是一個好的解決方案。像JMS這樣的東西可能更適合,這取決於數據的類型和大小。 – Kylar 2010-03-18 16:49:36

+0

這些看起來很有希望,我會檢查出來。謝謝。 – Pythonicus 2010-03-18 19:47:28

回答

0

我認爲這將取決於項目將如何成爲。如果這個項目將增加更多的需求並且涉及一些資金,那麼ETL工具可能是個好主意。但是,如果您現在已經修復了輸出(報告)並且它不打算去任何地方,那麼定製的ETL可能是值得的。原因是大多數ETL工具具有各種輸出格式(圖表,文本文件等)並且使用該工具的便利性,但底線是數據移動部分對於所有工具幾乎都是通用的。即使使用任何其他ETL工具,您也需要實現現在正在執行的相同查詢,此外還需要學習該工具。誰知道?某些工具可能涉及200多個網站的安裝。

近年來,公司花了很多錢購買報告工具&服務器&人力資源,以建立良好的ETL,因爲我們內部的ETL已經批評,所述緩慢和不專業的(你知道它是不是採用了時下流行ETL工具,它是一堆腳本命令)。所有的錢都花在了這個項目上,這個項目幾乎陷入死衚衕。

還有一件事。我不明白在這個過程中如何使用Java & FTP。 您可以使用SQL直接連接客戶系統中的數據庫嗎? 如果可以,使用SQL &存儲過程始終比使用JAVA & FTP更好。

希望它會有所幫助。

+0

我們無法直接連接,因爲我們集成到客戶或潛在客戶可能使用的任何數據庫 - 即Java和FTP。 – Pythonicus 2010-03-18 19:51:26

+0

讓我改述.. *在過去*我們沒有直接連接.. – Pythonicus 2010-03-18 19:59:39