2011-12-09 57 views
2

我正面臨一個問題,我需要提供一個搜索功能,用戶可以提供「儘可能多的信息,他/她知道」。這個數據集應該是 匹配不同的查找表,以確定我是否可以可靠地將它與 與我們的本地ID之一相關聯。例如,如果我們有這個搜索查詢的記錄。 大部分字段都是模糊的。數據集的模糊索引

實施例: 一個字段可以是域名(其中用戶僅具有第一名稱)和另一街道 其中用戶僅具有街道號碼。

該數據集是中等大小(~10M條目)。

這個問題的最佳答案是什麼? SQL + soundex? Lucene的?

謝謝!

+0

這個問題已經有點老了。我正在尋找類似的東西。你現在在用什麼? – Albert

回答

0

您可以在Lucene中評分文檔並比較相似度。象Lucene這樣的反轉索引工具應該比SQL中傳統的鍵值查找更快,更具可擴展性。