我想使用自己的算法從訓練數據中提取特徵,然後使用CountVectorize
在scikit-learn
中進行擬合和變換。如何使用自己的算法提取scikit-learn中的特徵(文本特徵提取)
目前我做的:
from sklearn.feature_extraction.text import CountVectorizer
cvect_obj = CountVectorizer()
vects = cvect_obj.fit_transform(traning_data)
fit_transform(traning_data)
自動提取特徵並進行轉換,但我想用我自己的算法來提取特徵。
您能否詳細說說您希望用來提取功能的算法以及您希望使用這些功能的方式?您希望完成的機器學習任務是什麼? – duhaime
@duhaime目前我正在審查分類正面或負面。使用單元模型,我在測試數據上獲得了77%的準確性。但是我想在提供pos標籤後僅提取雙格語短語和單詞情感詞,並使用提取的短語和情感詞作爲特徵。 – iammehrabalam
也許你應該生成一些稀疏矩陣然後使用它。 – tumbleweed