我正在爲一家運行基於MS SQL數據庫服務器的軟件產品的公司工作,並且通過多年來我在PHP中開發了20-30個相當先進的報告,直接從數據庫中獲取數據。這非常成功,人們對此感到滿意。從零開始構建OLAP解決方案時應該記住什麼?
但它也有一些缺點:
- 對於新的變化,它可以是相當密集的發展
- 用戶不能嘗試多與數據 - 它被鎖定到一個硬編碼的視圖
- 它可以爲大報告
我正在考慮逐漸將基於OLAP的方法,它可以從Excel或一些基於Web的服務進行查詢會很慢。但我希望這樣做的方式是在IT環境中引入最少量的新複雜性 - 最少量的不同服務,同步作業等等!
我在這方面有一些問題:
1)工作流相關:
- 什麼是「黑盒子SQL服務器」的良好發展路線,以「OLAP準備使用」 ?
- 應該設置哪些服務器和服務,以及應該編寫哪些腳本?
- 哪些是最難/最關鍵/最耗時的部件?
2)ETL:
- 我想這是最好有單獨的服務器爲他們的數據倉庫和生產SQL?
- 這些如何保持同步(推/拉)?使用哪些技術/語言?
- 對我來說,SSIS看起來過於複雜,圖形化的工作流程對我沒什麼吸引力 - 我寧願喜歡一個基於文本的腳本來完成這項工作。這是可行的嗎?
- 或者只有一個源和一個目的地使用圖形客戶端有利嗎?
3)發展:
- 這如何(數據集成的多,分析服務)可以有效地從CLI工具維護?
- 設置可以輕鬆地在生產和開發之間來回切換嗎?
我很滿意任何只涵蓋其中一部分的答案 - 儘管它是MS環境,但我也有興趣瞭解其他技術的優勢。
你能澄清點嗎? 2?在我對OLAP多維數據集的稀疏實驗中,使用現有的數據模型構建一個多維數據集非常困難 - 通常情況下,數據必須在ETL工具中「非規格化」爲星形/雪花模式? – 2010-09-15 18:36:06
我根據您的要求擴展了第2點。如果您需要我添加其他評論,請告知我。 – 2010-09-15 20:04:32
謝謝你提到Kimball的名字 - 看起來這些書http://www.ralphkimball.com/html/books.html有很多關於數據倉庫設計的最佳實踐,我會抓住他們.. 。 – 2010-09-16 07:53:37