-2
我創建了一個腳本來計算兩個字符串的Levenshtein距離。現在我想根據Levenshtein距離對字符串列表進行分組。 (如果字符串的距離低於閾值,它們將處於同一個羣組中):通過Python中的Levenshtein對字符串列表進行分組
目前,我已經做了一些事情,但似乎沒有工作。下面是一個僞代碼:
for every string in list:
create a new cluster with this string
remove the string from the list
for every string in the remaining list:
if distance(string1,string2) < threshold:
add string2 to the cluster
remove string2 from the list
這裏是因爲一些用戶問它真正的代碼:
cid = 0
clusters = {}
numb = range(len(mylist))
for i in numb:
cls = [mylist[i]]
numb.remove(i)
for j in numb:
if distance(mylist[i],mylist[j]) <= threshold:
cls.append(mylist[j])
numb.remove(j)
clusters[cid] = cls
cid+=1
cls = []
那麼,什麼是你所面臨的問題。 –