automl NaN排行榜性能

我使用H2O.AI h2o.automl函數來執行標準二進制分類問題。我正在使用在CRAN上發佈的最後一個軟件包版本。我跑到下面的代碼：automl NaN排行榜性能

my_automl_model<-h2o.automl(x=predictorsList, y="Purchase", training_frame = train.h2o, validation_frame = test.h2o, stopping_metric = "logloss", max_runtime_secs = 60*60*3).

是購買兩個層面的因素（「N」，「S」）和預測名單是predictorsList。

快速調用的日誌如下：

        model_id auc logloss 
1 GLM_grid_0_AutoML_20171012_150410_model_1 NaN  NaN 
2 GLM_grid_0_AutoML_20171012_150410_model_0 NaN  NaN 
3  DeepLearning_0_AutoML_20171012_145911 NaN  NaN 
4 StackedEnsemble_0_AutoML_20171012_145911 NaN  NaN 
5 GLM_grid_0_AutoML_20171012_145911_model_1 NaN  NaN 
6 GLM_grid_0_AutoML_20171012_145911_model_0 NaN  NaN

據我瞭解，包居模式，但我不知道爲什麼沒有顯示性能指標...

此外，我想了解： 1.什麼是XRT_xxx模型？ 2.如果有任何方法指定n-fold交叉驗證。

預先感謝支持

來源

2017-10-12 Giorgio Spedicato

您可以在公開的二進制分類數據集中重現此錯誤，還是可以共享您的數據集？ –

我會解決在最後兩個問題，現在和更新我的回答如果你可以提供複製NA在排行榜問題的公開數據集。

XRT_xxx模型代表什麼？

XRT =使用極隨機樹隨機森林（又名ExtraTrees）。這通過設置histogram_type = "Random"來實現。

如果有任何方法可以指定n-fold交叉驗證。

現在你可以使用fold_column指定自定義褶皺，所以你可以可以改變褶皺這樣的數量。這應該是指定的整數倍或因子的一列，所以創建此是一樣的東西（R示例）的最簡單的方法：

# train should be your training_frame; we will use iris as an example 
data("iris") 
train <- as.h2o(iris) 

# add a fold column that uses 10 folds 
train[,"fold"] <- as.h2o(rep_len(1:10, nrow(train)))

然後在h2o.automl()設置fold_column = "fold"。

在下一個版本中，我們將直接公開nfolds參數以使其更容易（按照此任務的進度here）。

來源

2017-10-12 16:01:05

嗨艾琳，感謝您的初步見解......我會嘗試在打開的分貝上覆制問題，然後更新評論。 –

automl NaN排行榜性能

回答

相關問題