0

我有TfidVectorizer和OneVsRestClassifier(SGDClassifier)的管道。這是我想執行的gridSearch的參數:在小數據集上使用GridSearch並在大數據集上應用結果是一個好主意嗎?

parameters = {'tfidf-vect__ngram_range': ((1, 1), (1, 3)), 
       'tfidf-vect__stop_words': (None,'english'), 
       'tfidf-vect__min_df': (1e-3,1e-6), 
       'tfidf-vect__max_features': (1e7,1e4), 
       'tfidf-vect__norm': ('l1','l2',None), 
       'tfidf-vect__use_idf': (True, False), 
       'tfidf-vect__sublinear_tf': (True, False), 
       'clf__estimator__alpha': (1e-5, 1e-7), 
       'clf__estimator__loss':('hinge', 'log', 'modified_huber'), 
       'clf__estimator__penalty':(None, 'l2', 'l1','elasticnet'), 
       'clf__estimator__class_weight':("auto", None), 
       'clf__estimator__warm_start':(True,False), 
       'clf__estimator__average':(True,False,4,8,16) 
} 

問題:我想知道這是參數的最佳組合,但我不能在100K情況下與我的計算機上運行一個像這樣的gridSearch 。

問題:這種gridSearch的結果對於100k個實例數據集和一個子集允許說10-20k個樣本的結果有多相似(可能具有較小的參數集)?

正如你可能已經知道我正在處理文本問題的多標籤分類。

謝謝:)

回答

1

是的,這是一個體面的策略。你不能以任何方式保證最好的 - 但他們應該仍然是相當好的。你必須小心,雖然你不適合使用參數搜索的較小數據集。

相關問題