我的目標是基於它們與文本文檔的語料庫的相似程度對詞進行聚類。我計算了每一對單詞之間的Jaccard相似度。換句話說,我有一個可用的稀疏距離矩陣。任何人都可以指定我使用距離矩陣作爲輸入的任何聚類算法(也可能是它的Python庫)?事先我也不知道集羣的數量。我只想將這些單詞聚類在一起,並獲得哪些單詞聚集在一起。基於距離矩陣的聚類
回答
scipy集羣包可能是有用的(scipy.cluster)。 scipy.cluster.hierarchy有層次聚類功能。但請注意,那些需要一個濃縮矩陣作爲輸入(距離矩陣的上三角)。希望文檔頁面可以幫助你。
您可以使用預計算距離矩陣在scikit-learn中使用大多數算法。不幸的是,你需要許多算法的羣集數量。 DBSCAN是唯一不需要羣集數量並且也使用任意距離矩陣的羣組。 你也可以嘗試MeanShift,但那會將距離解釋爲座標 - 這也可能起作用。
還有affinity propagation,但我還沒有真正看到那個效果。如果你想要很多集羣,那可能會有所幫助。
披露:我是一個scikit學習的核心開發。
您能提供一個使用距離矩陣作爲輸入的scikit-learn算法的[可重現示例](http://stackoverflow.com/help/mcve)嗎? – Bryan 2014-11-13 14:56:42
這裏有一個:http://scikit-learn.org/dev/auto_examples/cluster/plot_segmentation_toy.html – 2014-11-13 20:36:55
- 1. 給定距離矩陣的聚類256x256
- 2. 分層聚類給定距離矩陣
- 3. 將距離矩陣作爲輸入的基於密度的聚類庫
- 4. 基於谷歌地圖距離聚類
- 5. 距離矩陣
- 6. 設置heatmap中的距離矩陣和聚類方法.2
- 7. 如何在R中導入聚類的距離矩陣
- 8. java k-means使用距離矩陣的術語聚類
- 9. 使用jaccard距離矩陣的Kmeans聚類
- 10. 稀疏矩陣中聚類元素的距離度量標準
- 11. 矩陣,距離,javascript
- 12. 行聚合的基於距離
- 13. 分層聚類大型稀疏距離矩陣R
- 14. python hcluster,距離矩陣和濃縮距離矩陣
- 15. 距離矩陣中的R
- 16. v網絡對於距離矩陣
- 17. 按距離聚類
- 18. 用於距離聚類的Python庫
- 19. 基於距離聚類的集羣中心
- 20. ELKI - 輸入距離矩陣
- 21. [R距離矩陣構建
- 22. 成對距離矩陣
- 23. 距離矩陣在R
- 24. Google距離矩陣問題
- 25. 距離矩陣FLoyd Warshall Python
- 26. 創建距離矩陣?
- 27. 可視化距離矩陣
- 28. 谷歌距離矩陣API
- 29. 求解矩陣,其距離其他矩陣的距離是已知的
- 30. R中的距離聚類
看看http://code.google.com/p/em-python/和「http://en.wikipedia.org/wiki/Expectation-maximization_algorithm」 – Moj 2013-04-26 22:21:45
還有http:// www .pymix.org/pymix/index.php?n = PyMix.Tutorial – Moj 2013-04-26 22:25:29
@Moj對不起......我似乎無法弄清楚你提到的鏈接中包含的信息在這裏是如何相關的 – user2115183 2013-04-26 22:26:03