2012-06-28 75 views
3

我有一個應用程序顯示了~100個關於熱門話題的推文。事情是,他們中的很多人真的很相似(即不同網址的推文相同),這就是爲什麼我想忽略真正類似的推文。計算一組字符串(推文)的相似度

我試圖找到一種有效的方式來做到這一點與python。我正在考慮使用:http://code.google.com/p/pylevenshtein/來解決這個問題,但我必須比較很多推文,也許有一個更簡單的方法。

回答

2

你真的要嘗試difflib,它有一些很酷的東西。這是我的最愛之一:

>>>from difflib import SequenceMatcher as sm 
>>> dif = sm(a='hello', b='maybe hello') 
>>> dif.ratio() 
0.625 
>>> dif = sm(a='hello', b='Hello') 
>>> dif.ratio() 
0.8 
>>> dif = sm(a=[1,2,3,4], b=[2,3,5,6]) 
>>> dif.ratio() 
0.5