我正在通過以下鏈接處理數據倉庫中的數據質量問題。 。處理數據倉庫中的重複項
http://www.kimballgroup.com/2007/10/an-architecture-for-data-quality/
「 響應質量事件 我已經說過,每個質量屏擁有決定何時發生錯誤時會發生什麼情況的選擇是:1)暫停過程中,2)發送違規結果,以供以後的處理的懸念文件,以及3)僅標記的數據,並將其通過以在管道中的下一個步驟。第三種選擇是迄今爲止最好選擇。 「
在s (如客戶端列表),有時我們會獲得同一個客戶端兩次(這兩個記錄在某些屬性上有所不同)。這種情況下最好的解決方案是什麼?
我不想拒絕這兩個記錄(因爲這將意味着不完整的客戶端數據)。
源系統在解決問題時速度很慢,所以我們每天都會遇到同樣的問題。這意味着手動解決問題也很困難,因爲它必須每天完成(我們每天都會收到客戶名單)。
選擇單個記錄是不可能的,因爲我們不知道什麼是正確的值。
將這兩個記錄都存儲在我們的倉庫中意味着我們的聯接中斷。由於相同ID的兩行,因此事實錶行被加倍(在連接中)。
有什麼想法?
將違規記錄發送到掛起文件供以後處理,並使用GUI修復違規記錄看起來像是您的最佳選擇。 –