使用案例:用戶1個上傳100名公司的名稱(如微軟,銀行塞拉利昂)如何規範化大型的用戶生成的公司名稱數據集?
用戶2個上傳100名公司的名稱(如缺口,UserVoice的,微軟公司)
我想用戶1的概念的微軟和用戶2的微軟的概念,以映射到一個集中維護的實體和微軟的唯一索引。
如果有人上傳不在中央存儲庫中的名稱,我想我希望按原樣輸入名稱。但是,如果第一個條目拼寫錯誤(例如Vergin Mobile而不是Virgin Mobile?)會發生什麼情況?我們如何才能最好地糾正它,並將新的上傳與相同的索引關聯起來?
從技術上講,中央資源庫應該是一個單獨的數據庫嗎?即使用戶生成的信息也應該放在一個獨立的數據庫中,也不應該出現在針對它的商業交易中?
從問題的一個大定義開始,希望能夠將它與您的輸入進行比較,謝謝。
這聽起來像所有你真的想在這裏是一個拼寫檢查器。 – 2009-01-09 19:37:53
好吧,除了拼寫檢查以外,還有一些考慮因素。例如,有些人可能會寫「空白」而不是「空白」或什麼。一個想法是查看以前的回覆,並查看任何類似的回覆,如果用戶輸入「Vergin Mobile」,請問「您的意思是Virgin Mobile」。 – 2009-01-09 19:39:55