2016-04-30 67 views
2

我有一個字符串列表,我想通過在Python中使用集羣對它進行分類。Python中的字符串聚類

list = ['String1', 'String2', 'String3',...] 

我想用Levenshtein距離,所以我用水母庫。給定兩個字符串,我知道他們的距離,可以發現這樣說:

jellyfish.levenshtein_distance('string1', 'string2') 

我的問題是,我不知道如何使用scipy.cluster.hierarchy在每個集羣的Python來獲取列表。我也試過使用聯動功能:

linkage(y[, method, metric]) 

但我無法得到與羣集的最終名單。

任何幫助?

+1

看看這裏:http://stackoverflow.com/questions/21638130/tutorial-for-scipy-cluster-hierarchy – tfv

回答

0

在使用linkage對距離進行分層聚類後,應該使用cluster.hierarchy.cut_tree來剪切樹。 如果你想兩個集羣:

cluster.hierarchy.cut_tree(linkage_output,2).ravel() #.ravel makes it 1D array.