0
其中預處理過濾器,我應該在WEKA使用應用k均值爲與不是定量的,但在本質上分類屬性的記錄工作。例如三個記錄與{低,中,高}的值收入水平不定量屬性,已婚,有與{阿拉巴馬州,阿拉斯加州,...,懷俄明} .Thanks值的值{是,否}和國家居住。在weka中使用哪個過濾器使用k意味着對分類數據進行聚類?
其中預處理過濾器,我應該在WEKA使用應用k均值爲與不是定量的,但在本質上分類屬性的記錄工作。例如三個記錄與{低,中,高}的值收入水平不定量屬性,已婚,有與{阿拉巴馬州,阿拉斯加州,...,懷俄明} .Thanks值的值{是,否}和國家居住。在weka中使用哪個過濾器使用k意味着對分類數據進行聚類?
許多人使用一個熱碼這一點。
結果通常比較差,因爲k-means是爲連續變量設計的。得到的聚類中心將不再是二進制,並且可以不映射回範疇值,以及(這並不奇怪,因爲K-手段是所有關於意味着,但什麼是「蘋果」,「香蕉」的平均值和「橙」)?
如果您改爲查找頻繁項目集而非k均值中心,通常您會得到更有意義的結果。