我有一個準備用於MATLAB的文本分類數據集。每個文檔都是該數據集中的一個矢量,此矢量的維度非常高。在這些情況下,人們通常會對矢量進行一些特徵選擇,比如您實際找到WEKA工具包的特徵。在MATLAB中有這樣的東西嗎?如果沒有,你可以建議和算法,我做到這一點...? 謝謝MATLAB中的特徵選擇
6
A
回答
12
MATLAB(及其工具箱)包括一定數量的處理功能選擇功能:
- RANDFEATURES(生物信息學工具箱):生成隨機子集由分類 引導功能
- RANKFEATURES(Bioinformatics Toolbox):按等級可分性標準排列特徵
- SEQUENTIALFS(統計工具箱):順序特徵選擇
- RELIEFF(統計工具箱):救濟-F算法
- TREEBAGGER.OOBPermutedVarDeltaError,predictorImportance(統計工具箱):利用集成方法(袋裝決策樹)
你也可以發現證明了在真實數據集用法示例:
- Identifying Significant Features and Classifying Protein Profiles
- Genetic Algorithm Search for Features in Mass Spectrometry Data
此外,還存在第三方工具箱:
否則,您可以隨時撥打從WEKA你最喜歡的功能,直接從MATLAB,因爲它包括一個JVM ...
1
功能選擇取決於您要對文本數據執行的特定任務。
最簡單和最粗糙的方法之一是使用主成分分析(PCA)來減少數據的尺寸。這種縮小的尺寸數據可以直接用作分類的特徵。
參見這裏採用PCA教程:
http://matlabdatamining.blogspot.com/2010/02/principal-components-analysis.html
這裏是鏈接到Matlab的PCA命令的幫助:
http://www.mathworks.com/help/toolbox/stats/princomp.html
使用所獲得的功能,衆所周知的支持向量機器(SVM)可用於分類。
http://www.mathworks.com/help/toolbox/bioinfo/ref/svmclassify.html http://www.autonlab.org/tutorials/svm.html
1
您可以考慮使用Weiss和Kulikowski的獨立功能技術快速消除這顯然unimformative變量:
http://matlabdatamining.blogspot.com/2006/12/feature-selection-phase-1-eliminate.html
相關問題
- 1. MATLAB中的特徵選擇方法?
- 2. 迴歸模型的matlab特徵選擇
- 3. TensorFlow中的特徵選擇
- 4. Matlab中的簡單順序特徵選擇
- 5. 噸-STAT的特徵選擇
- 6. MATLAB中的特徵值
- 7. 特徵選擇設置
- 8. 特徵選擇Scikit學習
- 9. 實現特徵選擇
- 10. 選擇框爲特徵
- 11. R中的SVM特徵選擇
- 12. 找出特徵選擇中已轉換輸出中的選定特徵
- 13. 特徵選擇算法POE1ACC用於連續值的特徵
- 14. Openlayers3點擊外部特徵取消選擇所有特徵
- 15. sklearn:創建選擇題稀疏特徵向量特徵
- 16. 選擇不在頂層的特徵
- 17. 使用PCA的特徵選擇
- 18. 特徵工程的Ngram順序選擇
- 19. 遺傳算法的特徵選擇
- 20. Matlab中的函數字段特徵
- 21. matlab提取matfile中的特徵
- 22. MATLAB中的臉部特徵提取
- 23. scikit中的特徵選擇學習多個變量和數千個特徵
- 24. 訪問SciKit-Learn中特徵選擇管道後的實際特徵
- 25. 可視化HOG特徵MATLAB
- 26. Matlab-選擇矩陣中的特定值
- 27. 情感分析,特徵選擇
- 28. R rfe特徵選擇插入符號
- 29. 使用張量流特徵選擇
- 30. 如何評估特徵選擇方法?
http://stackoverflow.com/questions/3047940/feature-selection的重複 - 方法 - 在與Matlab?但這個似乎有一個更好的接受答案。 – 2013-05-27 15:42:06