2011-08-15 68 views
2

我們得到了一些含有一些冗餘,不良數據的數據庫。舉例來說,一些文章名稱有大寫小寫字母差異,其他的重音問題,其他字母缺失等等。這個想法是合併實際上相同的db記錄。數據清理:用戶輸入的數據庫數據工具

有很好的工具,有允許容易清理數據庫,理想的應該不會自動完成,但需要用戶確認

回答

1

有相當多的工具,在那裏進行數據清理。還有更多的公司提供數據清理服務。

我已經爲幾家大型企業進行了數據清洗,這不是一件容易的事情,或者看起來很簡單,而且重複數據也充滿了各種各樣的問題,直到您開始鍛鍊纔會顯現出來。恕我直言,如果您的遺留數據處於相對較差的狀態,並且您在這個(相當專業化的)領域沒有內部專業知識,我會考慮聘請第三方爲您做這件事,因爲它們很可能以比從頭開始的更低的總成本更快地執行它。

如果你想建立內部技能來做到這一點,那麼我已經做了一些快速的谷歌搜索,並看到許多軟件包提供,你可能想看看這些對方的相對優勢您正在尋求清理的特定類型的數據,因爲某些數據在某些區域會比其他區域更好。

希望這有助於, Ollie。