我使用r隨機森林包來預測基於氨基酸序列的蛋白質對之間的距離,主要興趣是接近(距離較小)的蛋白質。我的訓練數據集由10k對蛋白質和它們之間的實際距離組成。然而,極少數蛋白質對(小於0.2%)之間的距離很小,問題在於訓練的隨機森林在預測距離較遠的蛋白質之間的距離方面變得非常準確,並且對於距離較短的蛋白質非常不利他們。我嘗試在訓練數據中對距離較遠的蛋白質進行下采樣,但結果仍然不好。我更喜歡關閉蛋白質(這些蛋白質之間的距離很小)。 存在的過擬合,因爲我的訓練精度爲78一個非常明確的信號,我的測試精度是51% 任何建議高度讚賞隨機森林對不平衡數據的退化
0
A
回答
0
一對夫婦建議:
1)看GBM的從gbm
包。
2)創建更多功能來幫助RF瞭解驅動距離的原因。
3)繪製錯誤與單個變量來尋找什麼是驅動關係。 (GGPLOT2非常適合此尤其使用colour
和size
選項。)
4)你也可以分配1或0至基於距離y變量(即,如果距離< X;設置爲1 /如果距離> = x;設爲0)。一旦你有兩個類,你可以使用RF中的strata參數來創建均勻平衡的採樣,並使用RF的importance()和varImpPlot()函數來查看哪些變量正在推動距離的差異。
5)嘗試使用距離相關變量的日誌。射頻通常非常適合補償非線性,但它不會因爲嘗試而受傷。
我的猜測是,#2是你想花時間在哪裏,儘管它也是最難的,需要最多的思考。
相關問題
- 1. 大數據集上的隨機森林
- 2. 隨機森林的二進制數據
- 3. ROC隨機森林
- 4. 如何從h2o隨機森林對象中獲取隨機森林閾值
- 5. python中的隨機森林
- 6. 隨機森林中的R
- 7. 隨機森林在R:新因子水平在訓練數據
- 8. Spark隨機森林錯誤
- 9. 隨機森林,使用R
- 10. P值爲隨機森林
- 11. 隨機森林分析
- 12. 隨機森林分類器
- 13. OpenCV - 隨機森林示例
- 14. 對一小組標記數據的隨機森林分類器
- 15. 隨機森林參數「keep.forest」的含義
- 16. 隨機森林不生成err.rate
- 17. 隨機森林可變長度不同
- 18. 隨機森林:內存不足
- 19. 「決策森林」和「隨機森林」的簡潔區分
- 20. 如何sklearn隨機森林指數feature_importances_
- 21. 隨機森林包預測,newdata參數?
- 22. 預測隨機森林包函數給出了隨機森林不同的結果與XTEST和
- 23. 大型xdf文件隨機森林不讀入數據框
- 24. 多類決策森林vs隨機森林
- 25. R中的隨機森林包
- 26. 具有NaN值的隨機森林
- 27. 隨機森林中的子集
- 28. scikit-learn中的隨機森林解釋
- 29. R中的隨機森林 - 很多類
- 30. scikit-learn隨機森林的輸入
您有一個數據不平衡的情況。 0.2%是微不足道的,所以模型(隨機森林)忽略它們。如果您的測試集包含更多的距離較遠的數據,則應將它們移動到訓練集並使用交叉驗證來測試準確性。這可能不夠,因此小距離採樣的重採樣是下一步(搜索'不平衡數據重採樣') – topchef 2013-03-21 13:48:34