我剛開始學習隨機森林,因此,如果這聽起來很愚蠢,我感到很遺憾它sklearn countvectorizer中的fit_transform和transform有什麼區別?
我最近練bag of words introduction : kaggle,我想清楚了幾件事情:使用vectorizer.fit_transform
( 「*的名單上清理評論*」)
現在,當我們在列車上的評論準備的話陣列的包,我們使用fit_predic t在列車評論列表中,現在我知道fit_predict做了兩件事,>首先它適合數據並知道詞彙,然後它在每個評論上製作向量。
因此,當我們使用vectorizer.transform(「清除乾淨火車評論列表」)這只是變換的評論測試名單爲每個審查向量。
我的問題是.....爲什麼不在測試列表上使用fit_transform !!我的意思是它說,它會導致過度擬合的文件,但等待它確實對我來說很有意義反正使用它,讓我給你我的預期:
,當我們不使用fit_transform我們基本上說來使用火車評論最頻繁的單詞製作測試評論的特徵向量!爲什麼不使用測試中最頻繁的單詞來測試特徵數組?
我的意思是隨機的關心?如果我們給隨機森林列車功能陣列和火車功能情緒工作和訓練本身,然後給它測試功能陣列它不會只是它的情緒預測。
注:我可能沒有要求在正確的道路,但是,你的人嘗試回答我會更新這個問題更清楚..