2016-06-14 99 views
2

我看到在gridsearchcv中最好的參數是根據cross-validation確定的,但我真正想要做的是根據one held out validation set而不是cross validation來確定最佳參數。在gridsearchcv sklearn中舉辦了培訓和驗證集

不知道是否有辦法做到這一點。我發現了一些類似的帖子,其中定製了cross-validation folds。然而,我真正需要的是在一組上進行訓練並驗證驗證集上的參數。

有關我的數據集的更多信息基本上是由panda創建的text series type

+0

您是否嘗試過尋找到gridsearchcv類的CV參數。它可以採取你想要的分割。您可以將您的驗證集附加到訓練集並傳遞一個可在訓練和驗證時進行分割的迭代? –

回答

2

我沒有想出答案我自己的問題,通過使用PredefinedSplit

for i in range(len(doc_train)-1): 
    train_ind[i] = -1 

for i in range(len(doc_val)-1): 
    val_ind[i] = 0 

ps = PredefinedSplit(test_fold=np.concatenate((train_ind,val_ind))) 

然後在gridsearchCV參數

grid_search = GridSearchCV(pipeline, parameters, n_jobs=7, verbose=1 , cv=ps)