1
我目前正在開發一個項目,在該項目中,我必須將大量用戶生成的名稱與規範格式中的相同名稱的單獨列表進行匹配。問題在於用戶生成的名稱包含許多拼寫錯誤,縮寫以及簡單無效的數據,因此很難與規範化數據進行交叉引用。任何建議方法來做到這一點?在模糊數據上交叉引用數據庫
這不一定要實時完成,在這種情況下,精度比速度更重要。
本目前的思路是:
- 使用像Lucene的或獅身人面像現有的搜索實現,我相信使用類似Levenshtein距離這個做在規範數據庫中的用戶輸入的名稱進行模糊搜索。
- 在SOUNDEX哈希上的交叉引用(據推測,它是根據名稱的聲音而不是拼寫來計算的)而不是使用實際名稱。
- 上述
任何人的一些組合對任何這些還是自己的想法任何反饋?
我的一個擔心是上述方法都不能很好地處理縮寫。任何人都可以指引我使用某些機器學習方法來實際搜索擴展縮寫(或者告訴我我瘋了)?提前致謝。
謝謝,我覺得真的沒有完美的答案。我決定使用Lucene作爲交叉引用的主要方式,並使用不同的/自定義Analyzer來擴展縮寫並進行模糊搜索。 – ghempton 2009-12-22 19:50:11