我在做迴歸任務 - 我需要規範化(或縮放)randomForest(R包)的數據嗎?還需要衡量目標價值嗎? 如果 - 我想使用caret包的縮放函數,但是我沒有找到如何獲取數據(除垢,反規格化)。難道你不知道一些其他功能(在任何包),這是正常化/非規範化的幫助嗎? 謝謝, 米蘭我是否需要規範化(或縮放)randomForest(R包)的數據?
回答
我沒有看到無論是在幫助頁面或暗示縮放是必需的randomForest
迴歸變量暗角的任何建議。 This example at Stats Exchange也不使用縮放比例。
我的意見的副本:scale
函數不屬於pkg:caret。它是「基礎」R包的一部分。 grt和DMwR中有一個unscale
函數可以反轉變換,也可以簡單地乘以scale屬性,然後添加中心屬性值。
您對「正常化」爲什麼需要完成的概念可能需要嚴格檢查。只有在迴歸完成後才需要進行非正態性檢驗,如果沒有適合度方法的正常假設,則可能根本不需要檢驗非正態性。所以:你爲什麼問?在SO和Stats.Exchange中搜索可能證明是有用的: citation #1; citation #2; citation #3
boxcox
函數是一個常用的變形,當一個人沒有事先知道的分佈「應該」和當你真的需要做一個變形。在應用轉換方面存在很多缺陷,因此您需要提出這個問題的事實引起了您可能需要進一步諮詢或自學的擔憂。
不,對於隨機森林,縮放不是必需的。
RF的性質是這樣的收斂和數值精度的問題,這有時會絆倒在後勤和線性迴歸,以及神經網絡中使用的算法,是不那麼重要。正因爲如此,您不需要像使用NN一樣將變量轉換爲常見的規模。
你沒有得到任何類似的迴歸係數,它衡量每個預測變量和迴應之間的關係。因此,您也不需要考慮如何解釋這些受變量測量標度影響的係數。
如果你要交互添加到數據集 - 也就是新的變量是其他變量的一些功能(通常是簡單的乘法),你不覺得這是什麼新的變量代表(不能interprete吧),那麼你應該使用縮放變量來計算這個變量。
隨機森林是一個非線性模型,並且節點分裂統計賬戶的性質用於高維相互作用。因此,嘗試定義交互變量是不必要的,也是非常不可取的。 –
猜猜,下面的例子會發生什麼?想象一下,你有20個預測特徵,其中18個在[0; 10]範圍內,另外2個在[0; 1,000,000]範圍內(取自現實生活中的例子)。問題1:隨機森林分配什麼功能重要性。問題2:縮放2個大範圍特徵後,特徵重要性會發生什麼變化?
縮放比較重要。隨機森林對縮放比其他算法更不敏感,並且可以使用「粗略」縮放功能。
- 1. 我是否真的需要規範化我的數據庫?
- 2. 是否需要爲skflow.TensorFlowDNNClassifier縮放數據?
- 3. R反規範化數據
- 4. 我們是否需要在Matlab中規範化特徵值?
- 5. 是我的數據庫規範化?
- 6. 是否需要SAML元數據符合SAML2.0規範嗎?
- 7. 使用稀疏數據的特徵縮放/規範化
- 8. 數據庫設計 - 規範化或非規範化
- 9. 爲核心數據規範化或規範化字符串?
- 10. 我們是否需要僅對訓練集的輸入段進行規範化?
- 11. 我是否需要更改數據庫的排序規則?
- 12. Java/SPNEGO:不需要的SPN規範化?
- 13. 規範化或反規範化?
- 14. 是否有一種習慣於R規範化數據框的方式?
- 15. 數學:我需要規範化一些條形圖
- 16. 非規範化數據或多列鍵?
- 17. 是否有必要在機器學習中規範化/標準化數據?
- 18. 需要數據庫設計規範化幫助(5nf)
- 19. 用R規範數據
- 20. 我是否需要使用PreferenceActivity或數據庫或其他?
- 21. MySQL檢查數據庫是否規範化和功能化
- 22. 需要縮放的拋物面優化
- 23. MySQL的規範化或反正規化
- 24. mongo中的規範化與非規範化數據
- 25. 我是否需要釋放UITouch對象?
- 26. 我是否需要釋放此對象?
- 27. R:重新縮放數據
- 28. 我們是否總是從0-NF開始數據庫規範化?
- 29. MySQL數據庫規範化
- 30. 非規範化數據集
'scale'函數不屬於'caret'。它是「基礎」R包的一部分。有一個'unscale'函數可以逆轉轉換。 –