我有200個樣本,每個樣本都有60個特徵。我使用PCA找到主要組件。我使用神經網絡,並嘗試k最近鄰居然而,分類結果不好。我不介意抽取一些樣本,但我怎麼知道哪些樣本會破壞我的分類結果?我知道我可以一個接一個地嘗試,但這會非常無效。請幫忙如何找出哪些數據集使用MATLAB破壞我的數據分析?
0
A
回答
1
而不是拋出一些樣本,您需要丟棄一些屬性。
PCA用d x d條目計算矩陣。在60個屬性處,這個矩陣有3600個條目。你只有200個樣本來計算這個矩陣的內容 - 難怪結果幾乎是隨機的。您需要更少的變量和更多的數據。
0
這是一個經典的機器學習問題。如此多的特徵(在你的情況60中)總是有風險,只有200個樣本。請檢查您是否有多餘的功能。讓我舉一個例子
想想看,我們必須從以下特點預測房價在2 1.尺寸 2.臥室數 3樓年齡 4.大小foot2
請注意在這裏數字2和數字4特徵都給出相同的信息,它們是多餘的。起初它看起來不那麼令人不安。但是,如果你有這樣的數據,它更好地刪除這些功能。
因此,我建議您首先查看您的功能,然後再查看數據。有關更多詳細信息,請參閱斯坦福大學的機器學習課程(由吳教授提供),可在課程中使用
相關問題
- 1. 我可以使用哪些FoxPro數據工具來查找損壞的數據?
- 2. 如何找出哪個函數調用正在破壞我的數據?在Delphi 7中使用
- 3. 數據破壞
- 4. Sparc程序集調用破壞數據
- 5. 破壞數據庫
- 6. SDK收集哪些數據?
- 7. 使用kmeans matlab分割兩個數據集中的數據
- 8. printf()似乎在破壞我的數據
- 9. 我如何從Matlab中的數據集提取一些列
- 10. 使用UTF-8和mb_substr破壞數據
- 11. 如何破壞SQL CE數據庫?
- 12. ZeroMQ消息破壞數據
- 13. Wijgrid破壞數據屬性
- 14. MPI Recv數據被破壞
- 15. SocketChannel.write(ByteBuffer [])「破壞」數據
- 16. 如何阻止數據庫數據破壞HTML頁面?
- 17. 解析點com破壞解析數據庫中的所有userdata
- 18. 如何找出哪些元素保存數據對象
- 19. 如何找出哪些數據不會投射?
- 20. 拷貝數組的char *破壞數據
- 21. 如何找出哪些用戶當前正在使用ms訪問數據庫
- 22. 我該如何破壞一個linux進程的數據段?
- 23. 使用callgrind找出哪些函數是最密集的
- 24. Symfony2分析器 - 我在哪裏可以找到表單數據?
- 25. Matlab:當數據的函數未知時,如何計算數據集的積分
- 26. 如何使用xmlbeans分析XML數據?
- 27. 用戶生成數據的定性分析有哪些信息分析技術?
- 28. 如何導出Firebase分析數據
- 29. MATLAB的文本分類數據集
- 30. 如何使用C++庫找出HDF5中數據集的PredType
你可以從異常值中挑選出任何超過平均值2或3個標準差的東西。這取決於你的數據,但... – Dan 2012-07-13 06:46:18