0

請你幫我理解一下,因爲我不確定是否正確。決定降維,分類和聚類?

比方說,我有一個人的數據集,具有100個特徵,像身高,體重,年齡等各種特徵。我想分類,如果是正常或異常。我的意思是,如果一個20歲的男人是170釐米和150公斤,以確定它是不正常的。

我應該使用自組織映射來降低維度(這100個特徵),然後K-means將它們歸類爲正常和異常嗎?這是一個正確的方法嗎?或者我可以使用K-NN將它們分類爲正常 - 異常而不降維?

我可以在K-NN上使用多少功能?到目前爲止我發現的所有例子都只用了兩個。

如果後面我想找到爲什麼這個人已經包括到異常類中,我怎麼能發現這是因爲這兩個特徵,他的體重根據他的身高?

+0

更好地問 - at http://atatience.stackexchange.com/ –

+1

或者你甚至可以使用與K-Means等PCA。我怕這個問題回答太寬,不能用SO的範圍來回答。但作爲建議,您應該在跳入算法設計之前分析和研究您的數據。這是一個常見的數據科學錯誤。數據分析將幫助您決定是否真的需要降維,特徵工程,分類或聚類,可能使用kmeans或隨機森林等。 – eliasah

+0

@eliasah您可以告訴我可以使用K-NN有多少功能?我可以使用K-NN和百種功能嗎? – jimakos17

回答

1

如果您沒有每個樣本的標籤 - 它是無監督學習任務,也許是異常檢測/異常檢測。

我想你的情況下,你只需要適合多元高斯分佈到你的數據集,並假設如果p(x)(其中p是擬合正態分佈)小於某個閾值,則新樣本不正常。 也在這裏也看看:http://scikit-learn.org/stable/modules/outlier_detection.html#outlier-detection