2
我正面臨一個問題,我需要提供一個搜索功能,用戶可以提供「儘可能多的信息,他/她知道」。這個數據集應該是 匹配不同的查找表,以確定我是否可以可靠地將它與 與我們的本地ID之一相關聯。例如,如果我們有這個搜索查詢的記錄。 大部分字段都是模糊的。數據集的模糊索引
實施例: 一個字段可以是域名(其中用戶僅具有第一名稱)和另一街道 其中用戶僅具有街道號碼。
該數據集是中等大小(~10M條目)。
這個問題的最佳答案是什麼? SQL + soundex? Lucene的?
謝謝!
這個問題已經有點老了。我正在尋找類似的東西。你現在在用什麼? – Albert