2017-10-12 57 views
0

我使用H2O.AI h2o.automl函數來執行標準二進制分類問題。我正在使用在CRAN上發佈的最後一個軟件包版本。我跑到下面的代碼:automl NaN排行榜性能

my_automl_model<-h2o.automl(x=predictorsList, y="Purchase", training_frame = train.h2o, validation_frame = test.h2o, stopping_metric = "logloss", max_runtime_secs = 60*60*3). 

是購買兩個層面的因素(「N」,「S」)和預測名單是predictorsList。

快速調用的日誌如下:

        model_id auc logloss 
1 GLM_grid_0_AutoML_20171012_150410_model_1 NaN  NaN 
2 GLM_grid_0_AutoML_20171012_150410_model_0 NaN  NaN 
3  DeepLearning_0_AutoML_20171012_145911 NaN  NaN 
4 StackedEnsemble_0_AutoML_20171012_145911 NaN  NaN 
5 GLM_grid_0_AutoML_20171012_145911_model_1 NaN  NaN 
6 GLM_grid_0_AutoML_20171012_145911_model_0 NaN  NaN 

據我瞭解,包居模式,但我不知道爲什麼沒有顯示性能指標...

此外,我想了解: 1.什麼是XRT_xxx模型? 2.如果有任何方法指定n-fold交叉驗證。

預先感謝支持

+0

您可以在公開的二進制分類數據集中重現此錯誤,還是可以共享您的數據集? –

回答

1

我會解決在最後兩個問題,現在和更新我的回答如果你可以提供複製NA在排行榜問題的公開數據集。

  1. XRT_xxx模型代表什麼?

XRT =使用極隨機樹隨機森林(又名ExtraTrees)。這通過設置histogram_type = "Random"來實現。

  1. 如果有任何方法可以指定n-fold交叉驗證。

現在你可以使用fold_column指定自定義褶皺,所以你可以可以改變褶皺這樣的數量。這應該是指定的整數倍或因子的一列,所以創建此是一樣的東西(R示例)的最簡單的方法:

# train should be your training_frame; we will use iris as an example 
data("iris") 
train <- as.h2o(iris) 

# add a fold column that uses 10 folds 
train[,"fold"] <- as.h2o(rep_len(1:10, nrow(train))) 

然後在h2o.automl()設置fold_column = "fold"

在下一個版本中,我們將直接公開nfolds參數以使其更容易(按照此任務的進度here)。

+0

嗨艾琳,感謝您的初步見解......我會嘗試在打開的分貝上覆制問題,然後更新評論。 –