對於分類任務,我有一個4000萬x 22的numpy整型數據數組。 大部分功能都是使用不同整數值表示不同類別的分類數據。例如,在「顏色」欄中:0代表藍色,1代表紅色等等。我使用LabelEncoder對數據進行了預處理。Scikit-Learn中的分類數據轉換
- 將這些數據適用於SK學習中的任何分類模型是否有意義?我試圖將數據擬合到隨機森林模型中,但準確性非常差。我還嘗試過一種熱門編碼技術將數據轉換爲虛擬變量,但是我的電腦只能在使用一種熱門編碼後才能處理稀疏矩陣,問題是隨機森林只能採用密集矩陣,這會超出我的計算機內存。
- 在SK學習中處理分類數據的正確策略是什麼?
在嘗試處理4000萬行數據之前,我會減少訓練數據的大小,並找出哪些功能最有用。 RandomForest有一個屬性'feature_importances_',它會告訴你什麼它認爲是最有用的功能:http://scikit-learn.org/stable/modules/ensemble.html#feature-importance-evaluation – EdChum
感謝您的幫助!我不知道sklearn有這個。 –