Q

什麼是提高文本分類的模型精度/召回的典型方法

2014-04-17 10 views 1 likes

1

我正在嘗試將文本自動分類到t類別的數據挖掘項目。它是一個多級監督學習，輸入功能包括標題和正文（都是文本）。目前的準確率並不好，請您提供一些方法來提高準確度？什麼是提高文本分類的模型精度/召回的典型方法

這裏是我已經試過的東西。

預處理：期限（可以請你建議的方法來提取自動項）
停用詞刪除（能否請你提出一些停止詞集英語）
詞幹
詞形還原
的N-gram
特徵選擇（信息增益率）

算法：GBDT，LR，SVM等。

2014-04-17 Clover

+1

你是如何表徵這些特徵的？這些條款是特徵嗎？你有多少錢？ – amit

+0

是的，功能是術語，我試圖將地圖單詞變成帶有混合ngram的矢量，例如，句子「abc」將生成矢量（a，b，c，ab，ac，bc，abc）嘗試「位」「TF」和「TFIDF」，位得到更好的結果。 – Clover

A

回答

0

有很多工具可以用來提取明智的語言接地功能類型。這取決於您最喜歡的編程語言/環境，以及您是否想使用其中包含一些文本挖掘組件的機器學習套件，或僅使用文本挖掘組件。

看一看：

的Java：Weka（video有關文本分類），OpenNLP
的Python：Scikit-learn和NLTK。

關於禁用詞列表：

2014-07-09 21:46:11 filannim

相關問題