0
我有一套手工拾取的功能。並非所有的都是單個單詞;其中一些是bigrams,另一些是trigrams。我想對我的文本進行建模 - 這些文本基於這些功能明確地以原始文本的形式提供。我該如何做sklearn?這就是我迄今爲止定義Vectorizer的方法。如何辨別scikit-learn vectorizer使用特定功能?
def initialize():
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer(ngram_range=(1, 3))
return vectorizer