2016-01-27 79 views
1

我在隨機森林模型中使用經緯度以及Landsat數據作爲預測因子,旨在預測整個景觀中是否存在黑雲杉樹木。緯度顯示爲具有高度重要性,您可以看到映射預測中尖銳的緯度線的影響。此外,使用tunerF,mtry僅針對2個預測變量進行優化,緯度就是其中之一。我的模型不合適嗎?隨機森林中的預測因子能否導致不足?

+2

可能應該在這裏提問:http://stats.stackexchange.com/questions/tagged/r –

回答

1

選擇mtry = 2,並不意味着您完全丟棄了第三個參數。其實相反。您應該首先在培訓RF模型中包含所有合理的預測指標。降低mtry可以讓每個節點的測試次數少於所有變量。這允許較少的主導變量對最終預測做出更多貢獻。低電平有點類似於脊(正常化)迴歸。正則化會增加偏差,但會降低方差。有時候,粗糙和強壯會更好,有時不會。你會通過交叉驗證知道。這聽起來像你有~500個樣本(很多),只有3-6個變量(很少)。我會開始懶惰,只需手動將mtry手動更改爲所有3-6值,然後查看返回的OOB-CV值。