決定降維，分類和聚類？

請你幫我理解一下，因爲我不確定是否正確。決定降維，分類和聚類？

比方說，我有一個人的數據集，具有100個特徵，像身高，體重，年齡等各種特徵。我想分類，如果是正常或異常。我的意思是，如果一個20歲的男人是170釐米和150公斤，以確定它是不正常的。

我應該使用自組織映射來降低維度（這100個特徵），然後K-means將它們歸類爲正常和異常嗎？這是一個正確的方法嗎？或者我可以使用K-NN將它們分類爲正常 - 異常而不降維？

我可以在K-NN上使用多少功能？到目前爲止我發現的所有例子都只用了兩個。

如果後面我想找到爲什麼這個人已經包括到異常類中，我怎麼能發現這是因爲這兩個特徵，他的體重根據他的身高？

2016-01-10 jimakos17

更好地問 - at http://atatience.stackexchange.com/ –

或者你甚至可以使用與K-Means等PCA。我怕這個問題回答太寬，不能用SO的範圍來回答。但作爲建議，您應該在跳入算法設計之前分析和研究您的數據。這是一個常見的數據科學錯誤。數據分析將幫助您決定是否真的需要降維，特徵工程，分類或聚類，可能使用kmeans或隨機森林等。 – eliasah

@eliasah您可以告訴我可以使用K-NN有多少功能？我可以使用K-NN和百種功能嗎？ – jimakos17

如果您沒有每個樣本的標籤 - 它是無監督學習任務，也許是異常檢測/異常檢測。

我想你的情況下，你只需要適合多元高斯分佈到你的數據集，並假設如果p（x）（其中p是擬合正態分佈）小於某個閾值，則新樣本不正常。也在這裏也看看：http://scikit-learn.org/stable/modules/outlier_detection.html#outlier-detection

2016-01-10 16:02:17

回答