我正在學習使用Python進行機器學習,並瞭解我無法通過模型運行分類數據,並且必須先獲取假人。我的一些分類數據有空值(僅有2個特徵的一小部分)。當我轉換成傻瓜,然後看看我是否缺少值,它總是顯示沒有。我應該事先進行評估嗎?或者我會根據分類數據進行歸類?例如,如果該類別是男性/女性,我不想用最常見的替換空值。我看到,如果這個功能是收入的話,這將會是有意義的,我將會推測缺失的價值。收入是收入,而男性不是女性。Python機器學習 - 輸入分類數據?
因此,歸類分類數據是否合理?我離開嗎?我很抱歉,這是更多的應用理論比實際的Python編程,但不知道在哪裏發佈這種類型的問題。
你能澄清你的意思嗎? – BradMcDanel
傻瓜用0和1代替分類數據。它還會根據您的要素中不同值的數量來擴大數據集。因此,名爲M/F的功能將具有「男性」或「女性」的值。這在虛擬形式將是2列..男性和女性,二進制0或1,而不是文本。這個特例似乎也引入了共線性,因爲每當男性列爲0時,女性爲1等等。 – user3486773
所以,你只是意思是在一種熱門類型的編碼中映射M/F: M - > [0,1] F-> [1,0] – BradMcDanel