0
可能性太多我有40個輸入分類字段如 「的cpumodel」(1523種可能性)適用於分類字段
他們每個人可能有數以千計的可能性。
如果我使用get_dummies,我的熊貓表將包含許多虛擬列。 我打算將此字段用作機器學習算法的輸入功能。
我該如何處理?
可能性太多我有40個輸入分類字段如 「的cpumodel」(1523種可能性)適用於分類字段
他們每個人可能有數以千計的可能性。
如果我使用get_dummies,我的熊貓表將包含許多虛擬列。 我打算將此字段用作機器學習算法的輸入功能。
我該如何處理?
在這種情況下,你應該使用labelencoder。
在分類列上使用它將返回一個包含表示這些變量頻率計數的數值的列。
參考:http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.LabelEncoder.html
希望幫助!
不知道。我們必須閱讀文檔。至於準確性,我的建議是測試兩個,使用最好的結果。 – epattaro