2016-11-29 25 views
0

我正在讀H. H. Hultgren的書「使用數據倉庫建模敏捷數據倉庫」。他指出:日期倉庫:清潔和轉換時執行?

EDW代表什麼真的發生了 - 不是應該發生

什麼時候進行清潔和可能的轉換?在轉化過程中,我的意思是價值觀,例如,性別欄只能包含兩個可能的值'f'和'm',而不是'女性'或'男性'或0或1)。

+0

如果您通過ETL導入數據,那是一個地方。或者你可以使用其他類型的數據清理工具。這是一個非常普遍的問題。這取決於您的數據倉庫的體系結構。什麼提示了這個問題? –

+0

我不知道爲什麼它應該取決於數據倉庫的體系結構。擁有原始數據,人們想要構建一個數據倉庫來執行分析。然而,爲了進行分析,數據應該是非常規的(例如性別)。 Hultgren提到EDW代表了已經發生的事情,這意味着不應該進行改造或清理,因爲那樣它就代表了應該發生的事情。 – Tonja

+2

例如,您可能有一個數據倉庫,用於加載數據並嘗試自動清理數據,或者您可能有一個架構,其中每個「錯誤」記錄都會進入批准區域以供人員清理。我可以向你保證在現實世界中,沒有商業用戶想要從6個性別值中選擇。這是關於EDW的一個非常廣泛的聲明。例如,這可能意味着您應該反映源系統中發生的事情,而不添加調整或日記以使數據看起來更好。 –

回答

1

如果您通過ETL導入數據,那是一個地方。或者你可以使用其他類型的數據清理工具。這是一個非常普遍的問題。這取決於您的數據倉庫的體系結構。

例如,您可能會有一個數據倉庫加載數據並嘗試自動清除數據,或者您可能有一個架構,每個「錯誤」記錄都會進入審批區域以供人員清理。我可以向你保證在現實世界中,沒有商業用戶想要從6個性別值中選擇。

另一件事是你可能會從三個不同的系統加載數據,這三個不同的表示在每個系統中都是完全有效的,但最終用戶不想從6個選擇中選擇 - 他們需要數據被清洗。

我想,也許這種說法

EDW代表什麼真的發生了 - 不是應該發生

是因爲DV數據金庫具體的事情是所有關於建模並存儲源系統數據,無論架構如何變化,我想在這種情況下,您會將數據保險庫視爲ODS並保存數據,然後將其清理到報告中的星型模式