2011-03-09 162 views
1

我嘗試使用K-means基於大約1200個二進制變量對大約12000個元素進行聚類。傳統的距離度量標準(歐洲人,曼哈頓,漢明,萊文斯坦)都沒有產生令人滿意的結果。稀疏矩陣中聚類元素的距離度量標準

我設計了以下指標。

DIST(X,Y)= P的最小(X = 0 | Y = 1) P(Y = 0 | X = 1)

有沒有人使用類似的方法來這類問題?使用這個指標有沒有明顯的缺陷?我對數據挖掘相對較新,希望得到任何反饋。

感謝

回答

1

什麼是你嘗試建模域?您能否使用來自域的洞察進行羣集? 在這個一般的環境中可以說很少。我會嘗試dimension reduction以便首先獲得更有意義的功能,然後再進行羣集,但使用領域知識可以在此幫助。

0

您可以使用Jaccard距離二元屬性。 假設你在比較2行A和B.

M11 - is the number of attributes where both Ai=Bi=1 
M01 - is the number of attributes where Ai=0 and Bi=1 
M10 - is the number of attributes where Ai=1 and Bi=0 

的的Jaccard係數將是

J = M11/(M11+M10+M01) 

的的Jaccard距離將是:

D=(M01+M10)/(M11+M10+M01)