我有一個應用程序顯示了~100個關於熱門話題的推文。事情是,他們中的很多人真的很相似(即不同網址的推文相同),這就是爲什麼我想忽略真正類似的推文。計算一組字符串(推文)的相似度
我試圖找到一種有效的方式來做到這一點與python。我正在考慮使用:http://code.google.com/p/pylevenshtein/來解決這個問題,但我必須比較很多推文,也許有一個更簡單的方法。
我有一個應用程序顯示了~100個關於熱門話題的推文。事情是,他們中的很多人真的很相似(即不同網址的推文相同),這就是爲什麼我想忽略真正類似的推文。計算一組字符串(推文)的相似度
我試圖找到一種有效的方式來做到這一點與python。我正在考慮使用:http://code.google.com/p/pylevenshtein/來解決這個問題,但我必須比較很多推文,也許有一個更簡單的方法。
嘗試difflib.get_close_matches將每條推文與其他推文進行比較。
你真的要嘗試difflib
,它有一些很酷的東西。這是我的最愛之一:
>>>from difflib import SequenceMatcher as sm
>>> dif = sm(a='hello', b='maybe hello')
>>> dif.ratio()
0.625
>>> dif = sm(a='hello', b='Hello')
>>> dif.ratio()
0.8
>>> dif = sm(a=[1,2,3,4], b=[2,3,5,6])
>>> dif.ratio()
0.5