2013-05-25 27 views
1

我從6個實時饋送中提取數據,這些饋送有時會有稍微不同的格式,即。我可能有根據零件匹配匹配字符串

  • '兵工廠' 和 '阿森納'
  • 'T Walcot' 和 '西奧·沃爾科特' 和「T. Walcot」

什麼我徘徊了,有沒有簡單的方法來檢查,如果字符串匹配,如果他們有在他們將被認爲是相同的順序相同的字母某一%的基礎上對方。

我懷疑我可以設置一個相關單詞和術語列表,但這意味着必須事先安裝它,但是如果有一個更容易,在飛行中自動方式我不知道如何,因爲我不會能夠長時間編制完整清單。

回答

4

有一個功能,只是爲:

similar_text('Theo Walcott', 'T. Walcott', $similarity); 
echo $similarity; 
1

查看soundex函數http://php.net/soundex和similar_text函數以獲得相似百分比。

+0

或者試試Levenshtein距離:http://php.net/manual/en/function.levenshtein.php。 – Shi

+0

非常感謝,但是能與'o-wal-cot'和't wal-cot'一起工作嗎?當然音節太不同了 – sam