詞聚類

我想聚集一些詞（讓我們拿汽車品牌）。爲了做到這一點，我不能使用k-means或k-medoids，所以我嘗試使用Sklearn的Affinity Propagation。我使用levenshtein從距離lib或damerau_levenshtein_distance從pyxdameraulevenshtein庫。詞聚類

這裏舉例：https://stats.stackexchange.com/questions/123060/clustering-a-long-list-of-strings-words-into-similarity-groups

然而，這些指標並不完全，我需要的人。例如，MERCEDES-BENZ和MERCEDES有5個距離，與VOLVO和FIAT相同。你們是否知道一些衡量指標可以使MERCEDES-BENZ和MERCEDES的相似度得分比VOLVO和FIAT更高。

感謝， Djokx

來源

2017-06-27 Robin Fourcade