我有一堆文件與文章。對於每篇文章應該有一些功能,如:文本長度,text_spam(都是整數或浮點數,並且在大多數情況下它們應該從csv加載)。我想要做的是 - 將這些功能與CountVectorizer結合起來,然後對這些文本進行分類。使用CountVectorizer連接自定義功能
我看過一些教程,但我仍然不知道如何實現這個東西。發現了一些東西here,但實際上無法實現這個我的需要。
任何想法如何可以用scikit完成?
謝謝。
我碰上了現在的問題是:
from sklearn.feature_extraction import DictVectorizer
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.pipeline import FeatureUnion
measurements = [
{'text_length': 1000, 'text_spam': 4.3},
{'text_length': 2000, 'text_spam': 4.1},
]
corpus = [
'some text',
'some text 2 hooray',
]
vectorizer = DictVectorizer()
count_vectorizer = CountVectorizer(min_df=1)
first_x = vectorizer.fit_transform(measurements)
second_x = count_vectorizer.fit_transform(corpus)
combined_features = FeatureUnion([('first', first_x), ('second', second_x)])
對於這串代碼,我不知道如何加載「真實」數據,因爲訓練集已加載。第二個 - 如何加載類別(適合函數的y參數)?