2011-05-06 25 views
2

我有一個將存儲和跟蹤訪問者的應用程序。這些訪問者在設置訪問時根據需要由調度程序(用戶)在系統中創建。問題是,大部分的時間是訪問者的唯一重要的唯一標識符如下:名稱匹配字典,用於查找名字和姓氏變體

  • 公司名稱

的重複記錄現有風險因爲同一個人是固有的,調度人員可以輸入一個新的訪問者記錄來替代爲該名稱存在的人搜索系統。

當我遇到有人以同樣的名字進入一個訪問者時,我會顯示一個警告對話框,提供這個人可能是誰的各種建議,但是即使那樣也不夠好。

我可以輸入'Jim Jones',這個人可能在系統中存在'詹姆斯瓊斯'或'吉米瓊斯'。我看到有可用的名稱識別軟件包,但它們很昂貴,而且肯定比我所尋找的要重。

有人會知道在哪裏可以找到一個免費或開源詞典文件,我可以通過編程方式訪問以查找潛在的名稱變體?軟件或在線服務會很好,但即使只是一個數據轉儲或簡單的文本文件也可以。

我知道即使這不會阻止重複的訪客記錄,我只是試圖保持在最低限度,所以它不是一個關鍵功能。

+0

我想從上面的設計說明中澄清一下,當我說一個調度程序可能會輸入一個新的訪客記錄來代替搜索系統時,我的意思是說這種行爲是通過設計的。用戶羣將被假定爲具有最小的計算機技能,因此需要乾淨簡單的手持流量。 – 2011-05-06 12:47:56

回答

2

查看Moby項目(http://icon.shef.ac.uk/Moby/mwords.html)瞭解常見的姓氏和名字。您可以使用metaphone和soundex等工具對類似名稱進行預先計算,並使用它來識別潛在匹配。你也提到公司名稱,因爲它們可以由很多東西組成,因此它們有點難以管理,因爲這可能會檢查出12個詞的單詞列表(http://wordlist.sourceforge.net/)2 + 2列表在該軟件包中提供的列表提供了多種形式,這些形式具有共同的基礎,可以與類似的拼寫解決方案結合使用以提供更好的結果。

+0

感謝發佈,我會檢查這些鏈接,並讓你知道如何解決。澄清我不關心尋找公司。 「公司」字段不會是搜索字段,但會顯示爲唯一區分具有完全相同名稱的兩位訪客。 – 2011-05-06 12:53:45

+0

嗯......在我下載Moby詞典時解開文件時遇到了麻煩。自述沒有任何幫助。 – 2011-05-06 13:07:28

+0

那麼Moby字典是一個開始,但不是我正在尋找的東西。它有一系列令人印象深刻的名字,但是如果沒有比較清單,我真的不能做很多事情。我測試過的Metaphone和Soundex算法不起作用,因爲它們只會找到聲音類似的名稱,這不是我正在尋找的名稱。如果我的搜索字詞是'威廉',它應該能夠搜索'比爾','比利','威爾','威利','威利'等變體......有了這樣的列表,我可以輕鬆地編寫一個查詢來查找名稱變體列表中的所有訪問者。 – 2011-05-06 13:47:20