SKLearn交叉驗證：

我正在做文本分類，將處理未在我的訓練數據中捕獲的單詞，這意味着該單詞應被視爲未知。SKLearn交叉驗證：

有沒有人知道如果scikit的交叉驗證會將特定單詞視爲看不見，如果它不存在於訓練數據中？

或者即使它不在訓練集中，scikit會將所有單詞當作特徵對待？

2013-01-16 Steve

如果你做一個管道，它包裝兩種特徵提取（如CountVectorizer或TfidfVectorizer）和分類，然後一切都會自動開箱的交叉驗證：只發生在列車測試功能集合將被忽略（未映射到向量表示中的維度）。

關於如何使用vocabulary_屬性將特徵名稱映射到documentation on text feature extraction中的尺寸有更多詳細信息。

編輯：固定列車/測試錯字

編輯2：固定無效連結的例子。

2013-01-16 17:50:01 ogrisel

謝謝你，使我安心:-) – Steve

死鏈接：http://scikit-learn.org/dev/auto_examples/grid_search_text_feature_extraction.html報表 :( – Ashlaban

@Ashlaban感謝，我固定斷開的鏈接。 – ogrisel

回答