2017-06-21 34 views
-2

這裏有個簡短的問題。我想知道什麼時候和什麼情況使用單熱編碼,什麼時候應該使用虛擬變量。何時使用單熱編碼以及何時使用虛擬變量?

我打算用絕對的和數值變量做聚類分析。我在一個論壇上讀到,我可以嘗試使用單熱編碼對分類變量進行編碼。但我想知道是什麼使它與虛擬變量不同。

謝謝

+0

在我看來它同樣的事情。獨熱編碼變量是虛擬變量[相同](https://www.reddit.com/r/MLQuestions/comments/5bhmvz/whats_the_difference_between_one_hot_encoding_and/)。 –

回答

0

大多數聚類算法將根據距離全啞編碼。

任何這樣的編碼是一個黑客,使categoricial數據看起來好像是數字,但這只是推遲造成的問題:如何規範,體重,去相關,並結合功能。

對於大多數聚類算法,它使一個巨大的差異是否笨蛋編碼爲0,1或0,100000或0,0.000001。那麼你應該使用哪一個?對此沒有客觀的數學答案,並且造成嚴重問題。

0

主要區別在於虛擬編碼通常會刪除其中一列。例如。具有3個級別的變量將獲得2個虛擬變量和3個單熱編碼變量。這是爲了確保你沒有多重共線性。編碼一個熱有時也被稱爲

相關問題