2016-04-21 94 views
-1

我想找到一個例子來幫助我集羣我有一些文本數據。數據的格式如下:Python的k-均值聚類文本

A,B,3 
C,D,5 
A,D,57 

兩個第一個條目是一對的成員,數字表示該對在數據集中出現的頻率。我有超過200,000個獨特的對。

任何提示?謝謝!!

+1

你的問題到底是什麼?你有什麼嘗試? – mprat

+0

幾乎只是試圖找到一段代碼,它與我正在嘗試做的事情類似。我找到的所有代碼都是對文檔進行聚類,而不是對。事情是,我收到的描述/要求可能是錯誤的。謝謝你的回答! – boneless

回答

0

請勿在這些數據上使用k-means。

它不起作用。

你有什麼是一個相似性矩陣,而不是k-means所需的連續向量。你可以嘗試層次聚類(有一個稀疏的相似性,而不是的距離;不,我不會爲你寫代碼)。

+0

謝謝!我絕不會要求任何人給我寫一段代碼,但我很難找到任何與我正在嘗試做的事情類似的事情。這清楚地表明瞭這是爲什麼。謝謝。 – boneless