我在scikit-learn中使用各種機制來創建訓練數據集的tf-idf表示和由文本特徵組成的測試集。這兩個數據集都經過預處理以使用相同的詞彙表,因此特徵和特徵數量相同。我可以在訓練數據上創建一個模型並評估其在測試數據上的表現。我想知道是否使用SelectPercentile來減少轉換後訓練集中的特徵數量,怎樣才能確定測試集中的相同特徵以用於預測?scikit-learn SelectPercentile TFIDF數據特徵縮減
trainDenseData = trainTransformedData.toarray()
testDenseData = testTransformedData.toarray()
if (useFeatureReduction== True):
reducedTrainData = SelectPercentile(f_regression,percentile=10).fit_transform(trainDenseData,trainYarray)
clf.fit(reducedTrainData, trainYarray)
# apply feature reduction to the test data