我正在使用sklearn爲Kaggle上的文本分類競賽實施邏輯迴歸模型。即使在sklearn中使用交叉驗證也能進行邏輯迴歸過度裝配?
當我使用unigram時,有23,617個特徵。最好的
mean_test_score
交叉驗證搜索(sklearn的GridSearchCV
)給了我類似於我從Kaggle得到的分數,使用最好的模型。如果我使用bigram,則有1,046,524個特徵。
GridSearchCV
與單元相比,給我更好mean_test_score
,但是使用這個新模型我在Kaggle上得分低得多。
我想可能是因爲我有太多的功能過於合適的原因。我試圖設置GridSearchCV
使用5倍,甚至2倍,但分數仍然不一致。
這是否真的表明我的第二個模型是過度擬合,即使在驗證階段?如果是這樣,我如何使用sklearn調整我的邏輯模型的正則化術語?任何建議表示讚賞!
無論誰喜歡,請添加您的評論。所以我可以在未來提出更好的問題。 –