計算一組字符串（推文）的相似度

我有一個應用程序顯示了~100個關於熱門話題的推文。事情是，他們中的很多人真的很相似（即不同網址的推文相同），這就是爲什麼我想忽略真正類似的推文。計算一組字符串（推文）的相似度

我試圖找到一種有效的方式來做到這一點與python。我正在考慮使用：http://code.google.com/p/pylevenshtein/來解決這個問題，但我必須比較很多推文，也許有一個更簡單的方法。

2012-06-28 Rod0n

嘗試difflib.get_close_matches將每條推文與其他推文進行比較。

2012-06-28 23:42:32

你真的要嘗試difflib，它有一些很酷的東西。這是我的最愛之一：

>>>from difflib import SequenceMatcher as sm 
>>> dif = sm(a='hello', b='maybe hello') 
>>> dif.ratio() 
0.625 
>>> dif = sm(a='hello', b='Hello') 
>>> dif.ratio() 
0.8 
>>> dif = sm(a=[1,2,3,4], b=[2,3,5,6]) 
>>> dif.ratio() 
0.5

來源

2012-06-29 00:16:26 Amr

計算一組字符串（推文）的相似度

回答

相關問題