0
我有一系列公司名稱從網絡刮取返回,我試圖將它們與其他公司名稱表進行比較以查看它們是否匹配或者是近乎匹配;我需要比較兩個字符串以查看它們是否匹配或是否接近匹配
- 有些有限公司
- 另一個股份有限公司
該公司
有些有限公司
- 另有限公司
- 有限的
因此,比較兩個列表應將前兩行標記爲匹配,第二行標記爲接近匹配,第三行標記爲不匹配。根據我的理解,這是一個模糊搜索,但是我在澄清之後如何最好地實現這一目標?任何想法或建議?
我有一系列公司名稱從網絡刮取返回,我試圖將它們與其他公司名稱表進行比較以查看它們是否匹配或者是近乎匹配;我需要比較兩個字符串以查看它們是否匹配或是否接近匹配
該公司
有些有限公司
因此,比較兩個列表應將前兩行標記爲匹配,第二行標記爲接近匹配,第三行標記爲不匹配。根據我的理解,這是一個模糊搜索,但是我在澄清之後如何最好地實現這一目標?任何想法或建議?
請參閱本:http://en.wikipedia.org/wiki/Levenshtein_distance C實現可在外部鏈接中找到:萊文斯坦在MySQL