我有一個數據集,我的所有數據都是分類的,我想用一個熱門編碼進行進一步分析。複雜變量的一個熱門編碼
我想主要問題需要解決:
- 一些細胞中含有很多的文字在一個單元(一個例子如下)。
- 某些數值需要更改爲進一步處理的因素。
數據與3個標題的時代,信息&目標
mydf <- structure(list(Age = c(99L, 10L, 40L, 15L), Info = c("c(\"good\", \"bad\", \"sad\"",
"c(\"nice\", \"happy\", \"joy\"", "NULL", "c(\"okay\", \"nice\", \"fun\", \"wild\", \"go\""
), Target = c("Boy", "Girl", "Boy", "Boy")), .Names = c("Age",
"Info", "Target"), row.names = c(NA, 4L), class = "data.frame")
我想創建上面顯示所有這些變量中的一個熱點編碼,以便它看起來像下面這樣:
Age_99 Age_10 Age_40 Age_15 good bad sad nice happy joy null okay nice fun wild go Boy Girl
1 0 0 0 1 1 1 0 0 0 0 0 0 0 0 0 0 0
0 1 0 0 0 0 0 1 1 1 0 0 0 0 0 0 0 1
你是怎麼得到這個數據在這種形式開始?你能爲我們輸入這幾行嗎? – A5C1D2H2I1M1N2O1R2T1