當建立一個數據倉庫,我通常看到的ETL處理方法主要有兩種:ETL - 視圖還是持久表?
1.查看 - 視圖查看 - 的意見的意見觀點 - ...
方法之一是顯然在數據庫中,並且具有您沒有那麼多冗餘數據的優點,但可能導致性能問題。
2.第二階段表(數據副本) - 明確表(數據副本) - 數據倉庫表(數據副本) - ...
方法有兩個可能有許多工具來完成存儲過程和作業或者像SSIS這樣的ETL工具。 這裏的好處是,可以很容易地理解這個過程,因爲你可以很好地形象化它。您通常也具有非常好的整體ETL性能和許多預定義的任務等。 例如,一個問題可能是過程的更改更復雜,因爲必須更改持久表。
在現實世界中,您通常會看到兩者的混合體,特別是在許多人蔘與過程中。 當然,這也取決於情況(表格的大小,這家公司設計的類似流程是如何設計的,ETL流程有多複雜,......)。
我個人更喜歡複製表,保持ETL過程簡單,如果可能的話做的ETL工具(通常在SSIS我的情況)都被設計用於此目的。
但什麼是最佳實踐,爲什麼?