2017-07-20 87 views
0

h2o flow中,有沒有一種方法可以確保我的數據幀拆分具有受控比例的響應類別。h2o流數據拆分中響應類別的分層採樣

舉例來說,假設我計劃來訓練二元分類器上的數據幀X,其中樣品的0_class_ratio%在0類和1_class_ratio%是在第1類欲X分成幀分割X_train和X_test分別爲0.75和0.25。我如何能夠確保X_train和X_test包含0_class_ratio%類別0中的樣本和1_class_ratio%類別1中的樣本?

在Python的scikit學習包我會做這樣的事情:

from sklearn.model_selection import StratifiedShuffleSplit 

split = StratifiedShuffleSplit(n_splits=1, test_size=0.2, random_state=rng_seed_) 
# go thru all (split and shuffled) indices of my_data dataframe stratified by response_class values 
for train_index, test_index in split.split(my_data, my_data["response_class"]): 
    strat_train_set = my_data.loc[train_index] 
    strat_test_set = my_data.loc[test_index] 

我知道了h2o超參數sample_ratesample_rate_per_class的,但我不完全知道如何在這種情況下使用它們。

回答

0

fold_assignment設置爲「分層」。

enter image description here

+0

此鏈接爲「fold_assignment」稍好(它永遠不會陳舊):http://docs.h2o.ai/h2o/latest-stable/h2o-docs/data-science/algo-params/fold_assignment.html –