3
我正在製作機器學習模型的功能。例如,一個類別變量'week'
範圍1-7。當使用單熱編碼時,將week = 1
編碼爲1,000,000,week = 2
爲0,100,000 ...。但是我也可以使用虛擬變量和單熱編碼。一個虛擬變量'week_v'
,並以這種方式,我必須設置 hidden variable
這意味着基礎變量,並設有week_v = 1
100000,week_v = 2
是010000 ......和 不會出現week_v = 7
。那麼什麼是它們之間的區別?我使用邏輯模型,然後我會嘗試gbdt。虛擬變量和單熱編碼有什麼區別?
實際上沒有什麼區別。單熱編碼是您爲創建虛擬變量所做的事情。選擇其中之一作爲基本變量對避免變量之間的完美多重共線性是必要的。 – ayhan
您可能有興趣檢查[this](https://stats.stackexchange.com/q/224051/99338)瞭解自由度如何根據您選擇的方法而改變。 –