稀疏矩陣中聚類元素的距離度量標準

我嘗試使用K-means基於大約1200個二進制變量對大約12000個元素進行聚類。傳統的距離度量標準（歐洲人，曼哈頓，漢明，萊文斯坦）都沒有產生令人滿意的結果。稀疏矩陣中聚類元素的距離度量標準

我設計了以下指標。

DIST（X，Y）= P的最小（X = 0 | Y = 1） P（Y = 0 | X = 1）

有沒有人使用類似的方法來這類問題？使用這個指標有沒有明顯的缺陷？我對數據挖掘相對較新，希望得到任何反饋。

感謝

來源

2011-03-09 David

什麼是你嘗試建模域？您能否使用來自域的洞察進行羣集？在這個一般的環境中可以說很少。我會嘗試dimension reduction以便首先獲得更有意義的功能，然後再進行羣集，但使用領域知識可以在此幫助。

來源

2011-03-13 08:21:31

您可以使用Jaccard距離二元屬性。假設你在比較2行A和B.

M11 - is the number of attributes where both Ai=Bi=1 
M01 - is the number of attributes where Ai=0 and Bi=1 
M10 - is the number of attributes where Ai=1 and Bi=0

的的Jaccard係數將是

J = M11/(M11+M10+M01)

的的Jaccard距離將是：

D=(M01+M10)/(M11+M10+M01)

來源

2016-12-26 11:11:14

稀疏矩陣中聚類元素的距離度量標準

回答

相關問題