2011-10-26 42 views
1

我想要使用特徵選擇來查找文檔中對二進制分類任務最有用的術語。如何找到二進制文檔分類中最具判別力的術語?

我一直在四處尋找:
此提到互信息和卡方檢驗指標
http://nlp.stanford.edu/IR-book/html/htmledition/feature-selection-1.html

MATLAB具有多項功能,以及:
http://www.mathworks.com/help/toolbox/stats/brj0qbu.html
Feature Selection in MATLAB
的中以上,緩解和排名特點看起來很有希望。

我不知道我的數據是否遵循正態分佈。有關哪種技術表現最好的想法?有沒有更新的方法,你會建議?重點是提高分類準確度。

謝謝!

回答

0

由於答案高度依賴於您的數據的性質,我建議玩幾個選項,可能使用一個保留集進行驗證。 最簡單的路徑可能是使用WekaRapidMiner進行實驗。從他們提供的衆多選項中選擇,你可能會熟悉其他幾種方法。

說了這麼多,我發現Mutual Information/Infogain可以用於很多種問題。

相關問題