2014-04-17 10 views
1

我正在嘗試將文本自動分類到t類別的數據挖掘項目。 它是一個多級監督學習,輸入功能包括標題和正文(都是文本)。 目前的準確率並不好,請您提供一些方法來提高準確度?什麼是提高文本分類的模型精度/召回的典型方法

這裏是我已經試過的東西。

  1. 預處理:期限(可以請你建議的方法來提取自動 項)
  2. 停用詞刪除(能否請你提出一些停止 詞集英語)
  3. 詞幹
  4. 詞形還原
  5. 的N-gram
  6. 特徵選擇(信息增益率)

算法:GBDT,LR,SVM等。

+1

你是如何表徵這些特徵的?這些條款是特徵嗎?你有多少錢? – amit

+0

是的,功能是術語,我試圖將地圖單詞變成帶有混合ngram的矢量,例如,句子「abc」將生成矢量(a,b,c,ab,ac,bc,abc)嘗試「位」「TF」和「TFIDF」,位得到更好的結果。 – Clover

回答

0

有很多工具可以用來提取明智的語言接地功能類型。這取決於您最喜歡的編程語言/環境,以及您是否想使用其中包含一些文本挖掘組件的機器學習套件,或僅使用文本挖掘組件。

看一看:

關於禁用詞列表:

相關問題