解釋它進一步如何計算兩個文本/字符串之間的相似度或差異的百分比?
假設我有兩個字符串像下面
我是超級男孩誰可以飛!真的。
我是超級男孩誰可以打破牆壁! 真的。
所以有些字符是相似的I am super boy who can
和Really .
。 有沒有什麼東西可以用來找到這兩個字符串之間的百分比相似/差異。
解釋它進一步如何計算兩個文本/字符串之間的相似度或差異的百分比?
假設我有兩個字符串像下面
我是超級男孩誰可以飛!真的。
我是超級男孩誰可以打破牆壁! 真的。
所以有些字符是相似的I am super boy who can
和Really .
。 有沒有什麼東西可以用來找到這兩個字符串之間的百分比相似/差異。
你應該看看Levenshtein距離。
這SO answer to a similar question給出了萊文斯坦,哈羅溫克勒和史密斯沃特曼後藤算法的PHP代碼。
我發現Levenshtein和Jaro Winkler通常會爲較小的字符串之間的拼寫錯誤提供良好的結果。而史密斯沃特曼後藤is good at comparing sentences喜歡你的問題的例子。
這取決於你如何定義相似性... – Artefacto 2010-07-13 13:09:00
我很好奇看到你的實現。 – Gertjan 2010-07-13 13:26:51
@Gertjan道歉,閱讀遲了.PHP內置這些比較功能。一個很好的理論/算法由Levenshtein http://php.net/manual/en/function.levenshtein.php,第二個與百分比結果http://www.php.net/manual/en/function.similar-text。 PHP。 *我愛PHP *:P – Arshdeep 2010-07-13 16:58:51