首先,我是新的python和nlp /機器學習。 現在我有以下代碼:蟒蛇sklearn使用不僅僅是計數功能的幼稚bayes學習
vectorizer = CountVectorizer(
input="content",
decode_error="ignore",
strip_accents=None,
stop_words = stopwords.words('english'),
tokenizer=myTokenizer
)
counts = vectorizer.fit_transform(data['message'].values)
classifier = MultinomialNB()
targets = data['sentiment'].values
classifier.fit(counts, targets)
現在這實際上工作得很好。我通過CountVectorizer
和classifier
獲得了一個稀疏矩陣,它使用矩陣以及目標(0,2,4)
。
但是,如果我想在向量中使用更多功能而不是僅僅使用字數,我該怎麼辦?我似乎無法找到。先謝謝你。
嗨,謝謝你的回答。這些鏈接似乎有幫助。但是,我認爲我的問題實際上比你想象的要簡單。我意識到還有更多的矢量化器可用。但讓我們只是說我想使用消息本身的總字數作爲附加功能。這將是一個簡單的整數。目前,'classifier.fit'函數使用'CountVectorizer'返回的矩陣。如何將「字數」添加到「分類器」使用的特徵向量中,以便同時使用「計數」和「總字數」? – Micha