2016-07-05 54 views
0

我最近聽到了很多,這是較好的做法是999999個或相似的價值觀是在對基礎數據字段的值在正常範圍的更換損壞的值。損壞的數據最佳實踐

這聽起來,我認爲這完全是瘋狂的,必然導致誤認爲是新用戶,當他們後來插上自己的Tableau或其他分析到數據倉庫。

我其實沒有看到這種方法的理由申請。

您對此有何看法?

+0

如果沒有太多的壞數據,它不會使材質不同,你是在時間緊,而且沒有一個積極的尋找中,它實際上是一個好主意業務數據之後。儘管我從來沒有用這樣的編號替換數據 - 總是清楚地表明它是不正確的,即「未知」角色成員。 –

回答

1

這家飯店目前確實有一些項目的使用由系統和東西不可能通過正常渠道(企業)的支持非常高的值在損壞的記錄(數據質量差)或孤立記錄的情況下進入(沒有支持屬性的記錄)。

但我們總是在表示層中過濾這些記錄以避免混淆最終用戶。

另外,你可以使用負數而不是非常高的數字。但是我們需要在表示層中過濾這些記錄的邏輯應該是相同的。通過這種方式,我們可以在將來對這些記錄進行回顧性修正,並且可以通過過濾器輕鬆識別。

2

當談到將在聚合和計算中使用的措施,我絕對不會推薦具有較高或超範圍值的替換他們的價值觀,用空值替換值是比較合適在這種情況下,因爲它不會破壞結果。

的時候纔來的尺寸和文字說明,最好的辦法是在你的維度表中的一行來形容「未知」或「不適用」的價值和有一個ID與事實表連接。

+0

我完全同意你的看法;這是我所做的,除了任何具有良好SQL知識的人員能夠隨後對數據做任何他/她想要的事情之外。 – Breathe

+0

數字字段中NULL的問題在於分析或報告工具(或最終用戶)可能會將其解釋爲零。這可能會導致不正確的聚合;例如,考慮任何平均值的含義。被問及的顯然不正確的數字並不是一個完整的解決方案,但它們實際上可能比在數字字段中保留NULL的風險要小。 –