如何辨別scikit-learn vectorizer使用特定功能？

我有一套手工拾取的功能。並非所有的都是單個單詞;其中一些是bigrams，另一些是trigrams。我想對我的文本進行建模 - 這些文本基於這些功能明確地以原始文本的形式提供。我該如何做sklearn？這就是我迄今爲止定義Vectorizer的方法。如何辨別scikit-learn vectorizer使用特定功能？

def initialize(): 
    from sklearn.feature_extraction.text import CountVectorizer 
    vectorizer = CountVectorizer(ngram_range=(1, 3)) 
    return vectorizer

來源

2014-02-17 user706838

CountVectorizer和TfIdfVectorizer允許您指定要使用的詞彙。將它們作爲關鍵字參數vocabulary傳遞給構造函數。從docs引用：

詞彙：映射或可迭代，可選

任一個映射（例如，一個字典），其中鍵是術語和值在特徵矩陣指數，或一個可迭代超過條款。如果不給出，則從輸入文檔確定詞彙。

來源

2014-02-17 11:12:16 Matt

如何辨別scikit-learn vectorizer使用特定功能？

回答

相關問題