我有7個MySQL表,其中包含大約17000行中的部分重疊和冗餘數據。所有表格都包含學校的名稱和地址。有時候同一所學校的名字略有不同,有時同一所學校會出現在多個表格中,同樣的名稱或地址也會有細微差別。幫助正常化數據庫的建議和工具
我的任務是創建一個帶有ID,名稱和城鎮/城市ID字段的表,其中將包含來自7個表的數據。將有一個單獨的表爲id和名稱字段的城鎮。
由於原始表格沒有用於城市的單獨字段這一事實使其變得複雜,因此必須從具有非常不同格式的數據的地址字段中提取。
我意識到這些大部分都必須手動完成,我已經硬化了我的靈魂,並且我已經準備好處理這將給我帶來的活生生的地獄。我的問題是:
- 你將如何開始這樣的任務?什麼是智能策略儘可能多地實現自動化?
- 有沒有可以提高速度的工具?比如可以比較字符串的東西,確定他們的「相似性」並提出可能的重複?
謝謝!
謝謝你的出色建議!我寫了一個快速perl腳本從教育部網站下載所有匈牙利學校的列表,並從數據中生成sql插入語句。這爲我節省了大約2周的時間。再次感謝!! – neo2862 2010-09-16 10:03:35