我有一個非標準化的表格,顯示了汽車銷售詳細信息汽車製造商,型號和子模型。因爲它沒有被標準化,所以它沒有涉及汽車製造的標識,模型和子模型,而是具有真正的價值。這些值是由一名員工手動輸入到將要遷移的舊應用程序中,因此可能會出現諸如拼寫錯誤,類似的文字,空格,破折號等許多問題。數據從非標準化表格遷移到標準化表格
我創建了一個規範化表,我需要將現有數據從非規範化表遷移到新的規範化表。我需要找到與每個值對應的ID(汽車製造ID,型號和子模型)。但是,這並不容易,因爲例如奧迪(汽車製造)A4(車型)1.8T(子型號)可以寫成奧迪A4 1.8Turbo或奧迪A4 1.8Turbo Injection或奧迪A4 1.8 TFI等。所以,同一個實體的許多不同的文本值。 考慮到上面給出的上下文,我認爲獲取ID的最佳選擇是爲每個實體設置一個別名錶。例如,CarSubModelAlias。這些表格將指定映射到相同實體的所有不同值。 不幸的是,我有超過3,500個子模型,並且很難填充這些表格。
任何意見或建議?
它將永遠是這種情況下涉及的數據清理元素。通過首先提取所有完美匹配,然後通過模糊查找來傳遞剩餘行以找到最佳匹配,SSIS可能是一個不錯的選擇,可以逐步減少問題。 – Jayvee