0
我想了解Weka中簡單的K-means如何處理名義屬性以及爲什麼它在處理這些屬性方面效率不高。Weka簡單K意味着處理名義屬性
我讀到它計算這些屬性的模式。我想知道相似度是如何計算的。
讓我們舉一個例子: 考慮一個包含3個數字和一個nomimal屬性的數據集。 標稱屬性具有3個值:A,B和C.
的Instance1已經值A,實例2具有值B和Instance3具有值A. 在這種情況下,可能的Instance1更類似於Instance3(取決於其他數字屬性當然)。 Simple K-means在這種情況下如何工作?
跟進: 如果標稱屬性具有更多(10)個可能值會怎麼樣?
k-means恕我直言,恕我直言只對_continuous_屬性有意義。其他任何事情都是黑客攻擊,並且往往不是結果只有隨機凸分區纔有效。 – 2015-02-08 20:30:40