2011-11-28 71 views
1

我正在尋找一個好的算法/方法來檢查在數據倉庫中的數據質量數據質量。 因此,我希望有一些算法,「知道」該值的可能結構,然後檢查是否值這個結構的成員,然後決定他們是否正確/不正確。算法在數據倉庫

我認爲有關定義正則表達式和檢查每個值是否它適合與否。

這是一個好辦法嗎?有一些好的選擇嗎? (任何研究論文?)

回答

3

我看到一些authors建議增加一個特殊維度,稱爲數據質量維度來進一步描述每個facttable記錄。

然後,數據質量維度中的典型值可以是「正常值」,「超出界限值」,「不可能值」,「已驗證值」,「未驗證的值」和「不確定值。」

3

我會建議使用專用的數據質量工具,如DataCleaner(http://datacleaner.eobjects.org),這是我一直在做了不少工作,對。

你需要一個工具,它不僅檢查嚴格的規則約束一樣,也是一個會給你的數據的個人資料,讓您輕鬆地探索和尋找你自己的不一致。例如嘗試使用「模式發現器」,它可以告訴你字符串值的模式 - 這常常會揭示異常值和錯誤值。您還可以使用該工具實際清理數據,通過轉換值,從中提取信息或使用第三方服務進行豐富。祝你好運提高你的數據質量!