1
我正在嘗試將文本自動分類到t類別的數據挖掘項目。 它是一個多級監督學習,輸入功能包括標題和正文(都是文本)。 目前的準確率並不好,請您提供一些方法來提高準確度?什麼是提高文本分類的模型精度/召回的典型方法
這裏是我已經試過的東西。
- 預處理:期限(可以請你建議的方法來提取自動 項)
- 停用詞刪除(能否請你提出一些停止 詞集英語)
- 詞幹
- 詞形還原
- 的N-gram
- 特徵選擇(信息增益率)
算法:GBDT,LR,SVM等。
你是如何表徵這些特徵的?這些條款是特徵嗎?你有多少錢? – amit
是的,功能是術語,我試圖將地圖單詞變成帶有混合ngram的矢量,例如,句子「abc」將生成矢量(a,b,c,ab,ac,bc,abc)嘗試「位」「TF」和「TFIDF」,位得到更好的結果。 – Clover