2014-04-06 51 views
0

我有一個數據庫(比如5000條記錄),裏面裝滿了人名(名字和姓氏)。我也有一個龐大的電子郵件ID(約30000)。現在,我必須將這些電子郵件ID與任何可能的人名匹配並丟棄其他ID。所以,我現在在做什麼,我已經取得了一些模式,比如:與人名匹配的電子郵件ID

1. [email protected] 2. [email protected] 3. [email protected] 4. [email protected] etc

我也嘗試使用以下上面的圖案都姓和名的模糊搜索。 但人們傾向於在電子郵件ID中使用大量模式。截至目前,我傾向於爲一些人獲得超過1個結果。有沒有更好的方法來增加正確匹配電子郵件的可能性。我搜尋了很多,沒有找到任何可靠的想法。

回答

0

爲了讓它更智能一些,你可以假設任何非字母數字是名稱分隔符,並使用正則表達式,例如,

$揚[^ A-Z0-9]史密斯@ *^

但是,這並不與多個匹配的幫助。我認爲,由於您的電子郵件格式不受限制,您不可避免地會得到誤報。鑑於你的數據庫的大小,我認爲你一直用手做一些這樣的東西:(

相關問題