1

我正在做文本分類,將處理未在我的訓練數據中捕獲的單詞,這意味着該單詞應被視爲未知。SKLearn交叉驗證:

有沒有人知道如果scikit的交叉驗證會將特定單詞視爲看不見,如果它不存在於訓練數據中?

或者即使它不在訓練集中,scikit會將所有單詞當作特徵對待?

回答

3

如果你做一個管道,它包裝兩種特徵提取(如CountVectorizer或TfidfVectorizer)和分類,然後一切都會自動開箱的交叉驗證:只發生在列車測試功能集合將被忽略(未映射到向量表示中的維度)。

關於如何使用vocabulary_屬性將特徵名稱映射到documentation on text feature extraction中的尺寸有更多詳細信息。

還有一個例子顯示how to cross validate a pipeline that comprise a feature extraction component and a classifier

編輯:固定列車/測試錯字

編輯2:固定無效連結的例子。

+0

謝謝你,使我安心:-) – Steve

+0

死鏈接:http://scikit-learn.org/dev/auto_examples/grid_search_text_feature_extraction.html報表 :( – Ashlaban

+0

@Ashlaban感謝,我固定斷開的鏈接。 – ogrisel