0
在h2o flow
中,有沒有一種方法可以確保我的數據幀拆分具有受控比例的響應類別。h2o流數據拆分中響應類別的分層採樣
舉例來說,假設我計劃來訓練二元分類器上的數據幀X,其中樣品的0_class_ratio%在0類和1_class_ratio%是在第1類欲X分成幀分割X_train和X_test分別爲0.75和0.25。我如何能夠確保X_train和X_test包含0_class_ratio%類別0中的樣本和1_class_ratio%類別1中的樣本?
在Python的scikit學習包我會做這樣的事情:
from sklearn.model_selection import StratifiedShuffleSplit
split = StratifiedShuffleSplit(n_splits=1, test_size=0.2, random_state=rng_seed_)
# go thru all (split and shuffled) indices of my_data dataframe stratified by response_class values
for train_index, test_index in split.split(my_data, my_data["response_class"]):
strat_train_set = my_data.loc[train_index]
strat_test_set = my_data.loc[test_index]
我知道了h2o
超參數sample_rate和sample_rate_per_class的,但我不完全知道如何在這種情況下使用它們。
此鏈接爲「fold_assignment」稍好(它永遠不會陳舊):http://docs.h2o.ai/h2o/latest-stable/h2o-docs/data-science/algo-params/fold_assignment.html –