2010-12-11 269 views
6

我有一個準備用於MATLAB的文本分類數據集。每個文檔都是該數據集中的一個矢量,此矢量的維度非常高。在這些情況下,人們通常會對矢量進行一些特徵選擇,比如您實際找到WEKA工具包的特徵。在MATLAB中有這樣的東西嗎?如果沒有,你可以建議和算法,我做到這一點...? 謝謝MATLAB中的特徵選擇

+1

http://stackoverflow.com/questions/3047940/feature-selection的重複 - 方法 - 在與Matlab?但這個似乎有一個更好的接受答案。 – 2013-05-27 15:42:06

回答

12

MATLAB(及其工具箱)包括一定數量的處理功能選擇功能:

你也可以發現證明了在真實數據集用法示例:

此外,還存在第三方工具箱:

否則,您可以隨時撥打從WEKA你最喜歡的功能,直接從MATLAB,因爲它包括一個JVM ...

1

功能選擇取決於您要對文本數據執行的特定任務。

最簡單和最粗糙的方法之一是使用主成分分析(PCA)來減少數據的尺寸。這種縮小的尺寸數據可以直接用作分類的特徵。

參見這裏採用PCA教程:

http://matlabdatamining.blogspot.com/2010/02/principal-components-analysis.html

這裏是鏈接到Matlab的PCA命令的幫助:

http://www.mathworks.com/help/toolbox/stats/princomp.html

使用所獲得的功能,衆所周知的支持向量機器(SVM)可用於分類。

http://www.mathworks.com/help/toolbox/bioinfo/ref/svmclassify.html http://www.autonlab.org/tutorials/svm.html