2014-02-17 18 views
0

我有一套手工拾取的功能。並非所有的都是單個單詞;其中一些是bigrams,另一些是trigrams。我想對我的文本進行建模 - 這些文本基於這些功能明確地以原始文本的形式提供。我該如何做sklearn?這就是我迄今爲止定義Vectorizer的方法。如何辨別scikit-learn vectorizer使用特定功能?

def initialize(): 
    from sklearn.feature_extraction.text import CountVectorizer 
    vectorizer = CountVectorizer(ngram_range=(1, 3)) 
    return vectorizer 

回答

2

CountVectorizerTfIdfVectorizer允許您指定要使用的詞彙。將它們作爲關鍵字參數vocabulary傳遞給構造函數。從docs引用:

詞彙:映射或可迭代,可選

任一個映射(例如,一個字典),其中鍵是術語和值在特徵矩陣 指數,或一個可迭代超過條款。如果不給出 ,則從輸入文檔確定詞彙。