我嘗試使用K-means基於大約1200個二進制變量對大約12000個元素進行聚類。傳統的距離度量標準(歐洲人,曼哈頓,漢明,萊文斯坦)都沒有產生令人滿意的結果。稀疏矩陣中聚類元素的距離度量標準
我設計了以下指標。
DIST(X,Y)= P的最小(X = 0 | Y = 1) P(Y = 0 | X = 1)
有沒有人使用類似的方法來這類問題?使用這個指標有沒有明顯的缺陷?我對數據挖掘相對較新,希望得到任何反饋。
感謝
我嘗試使用K-means基於大約1200個二進制變量對大約12000個元素進行聚類。傳統的距離度量標準(歐洲人,曼哈頓,漢明,萊文斯坦)都沒有產生令人滿意的結果。稀疏矩陣中聚類元素的距離度量標準
我設計了以下指標。
DIST(X,Y)= P的最小(X = 0 | Y = 1) P(Y = 0 | X = 1)
有沒有人使用類似的方法來這類問題?使用這個指標有沒有明顯的缺陷?我對數據挖掘相對較新,希望得到任何反饋。
感謝
什麼是你嘗試建模域?您能否使用來自域的洞察進行羣集? 在這個一般的環境中可以說很少。我會嘗試dimension reduction以便首先獲得更有意義的功能,然後再進行羣集,但使用領域知識可以在此幫助。
您可以使用Jaccard距離二元屬性。 假設你在比較2行A和B.
M11 - is the number of attributes where both Ai=Bi=1
M01 - is the number of attributes where Ai=0 and Bi=1
M10 - is the number of attributes where Ai=1 and Bi=0
的的Jaccard係數將是
J = M11/(M11+M10+M01)
的的Jaccard距離將是:
D=(M01+M10)/(M11+M10+M01)