2017-07-11 68 views
0

具體來說,就是在如何區別對待H2Oenum數據string類型的對比度爲「int's和」 numerical「類型?H2O流量:如何H2O流UI對待數據類型不同

例如,說我有一個二元分類是需要有特色

x1=(1 of 10 possible favorite ice cream flavors (enum)) 

x2=(some random phrase (string)) 

x3=(some number (int)) 

會是怎樣在分辨訓練過程中如何處理這些類型的不同輸入樣本?

將數據上傳到h2o流程UI時,我可以選擇將某些數據類型(如enum)轉換爲'數字'。這讓我覺得有,當我剛離開「enum」不僅僅是字符串到數字的映射會作爲一個「enum」(不轉換爲「numerical」類型),但我不能找到什麼信息那是不同的。

澄清,將不勝感激, 謝謝:)

回答

0

的「枚舉」類型編碼你要使用的類別特徵的類型。如果分類特徵被編碼爲「enum」,那麼像Random Forest和GBM這樣的基於樹的算法將能夠以智能的方式處理這些特徵。你做RFS的大多數其他的實現和GBM力的類別特徵(成K虛擬列)獨熱膨脹,但在H2O,基於樹的方法可以使用這些功能,而無需任何擴展。可以使用categorical_encoding參數來控制變量處理的精確值。

如果你有一個有序分類變量,那麼它可能是正確的編碼,作爲「詮釋」,然而,這樣做,對模型性能的影響將取決於數據。

爲「數字」,將簡單地編碼每個類別作爲一個整數,你會失去這些數字代表類別的概念(所以不推薦)如果你要轉換的「枚舉」一欄。

,除非你打算從一組預測的排除列,則不應使用在水中的「字符串」類型。這將是有意義的使用「字符串」列文本,但你可能會想解析(如令牌化)的文本生成將被包括在該組預測的新的數字或枚舉功能。