1
我想要使用特徵選擇來查找文檔中對二進制分類任務最有用的術語。如何找到二進制文檔分類中最具判別力的術語?
我一直在四處尋找:
此提到互信息和卡方檢驗指標
http://nlp.stanford.edu/IR-book/html/htmledition/feature-selection-1.html
MATLAB具有多項功能,以及:
http://www.mathworks.com/help/toolbox/stats/brj0qbu.html
Feature Selection in MATLAB
的中以上,緩解和排名特點看起來很有希望。
我不知道我的數據是否遵循正態分佈。有關哪種技術表現最好的想法?有沒有更新的方法,你會建議?重點是提高分類準確度。
謝謝!