2009-06-15 44 views
2

問題標題可能不正確,因爲我的問題的一部分是嘗試瞭解一些問題。保持數據模型協議的優點

我在尋找確保導入到數據庫的數據(簡單示例:Excel表格到Access數據庫)的優點,並且應該使用相同的模式並且對業務需求也是有效的。

我有一個Excel表格包含沒有規範化數據和Access數據庫與規範化表。

Excel表格來自多個第三方,其中沒有一個使用相同格式的數據庫或數據庫。

某些來源也不提供所有相關數據。

的有什麼可以提供

contact_key,日期,CONTACT_TITLE,reject_name,reject_cost,count_of_unique_contact

count_of_unique_contact從不同CONTACT_TITLE的衍生和不應該導入示例。 contact_key有時不提供。 標題有時是未知的,並以「n/a」,「name = ?? 1342」,「#N/A」等形式傳遞,而非隨機。 reject_name經常會拼寫錯誤。有時甚至不提供田地,例如日期和contact_key丟失。

我試圖找到信息來幫助解釋上述問題。 僅涉及錯誤數據或字段的問題使得難以在數據庫中獲得有用的數據,例如無法在沒有提供日期的月份內報告拒絕成本趨勢。規範化excel文件不是我可以選擇的選項。

要求Excel文件中的值和字段與業務要求和格式相匹配,以便每個發送它們的第三方都是我想要做的,但請求卻充耳不聞。

我想向客戶解釋,輸入虛假數據和始終檢查無效/現有拒絕/聯繫人是否是錯誤的,並且如果不持續維護較差的系統,那麼這樣做會失敗或者最好很困難。

有沒有人有關於這個問題的任何信息?

謝謝

回答

3

這是一個常見問題;這在數據處理圈被稱爲「垃圾進入,垃​​圾出」。從本質上講,你碰到的是所給出的數據質量差,你應該認識到問題在於使用這些數據來提取任何有用的信息將會很困難(如果不是不可能的話)。

從某種程度上來說,這是一個應該從源頭上解決的問題;無論您的數據來源如何,都需要確信數據質量必須提高。在短期內,您可以通過對您的數據進行清理;該術語是指刪除或清除錯誤的條目,以使剩餘的數據(「好」數據)可導入到數據庫中。根據您的數據中有多少百分比不好,在導入數據後,您可能會或可能無法對清理過的數據執行有用的操作。

在某些情況下,由於您沒有獲得有關數據質量的管理方面的支持,您只需向他們展示系統無法按預期工作,因爲數據質量很差。他們需要在那個時候改進他們的流程,以提高當時您獲得的數據的質量。儘管如此,爲了獲得更好的數據而不斷努力。調查清理數據的過程,看看你可以用剩餘的數據做什麼。祝你好運!

+2

這是IT中常見的慣例,用於生成我們以前稱之爲「編輯報告」的內容,說明哪些數據驗證失敗。務必向管理層明確哪些數據不好,然後確定不要使用不良數據。如果你還可以保存一個文件中只有不好的數據,並且可能將它附加到發送給管理員的電子郵件中,那麼這可能會有所幫助。 – 2009-06-16 04:26:27