2012-01-22 68 views
31

我在做迴歸任務 - 我需要規範化(或縮放)randomForest(R包)的數據嗎?還需要衡量目標價值嗎? 如果 - 我想使用caret包的縮放函數,但是我沒有找到如何獲取數據(除垢,反規格化)。難道你不知道一些其他功能(在任何包),這是正常化/非規範化的幫助嗎? 謝謝, 米蘭我是否需要規範化(或縮放)randomForest(R包)的數據?

+6

'scale'函數不屬於'caret'。它是「基礎」R包的一部分。有一個'unscale'函數可以逆轉轉換。 –

回答

1

我沒有看到無論是在幫助頁面或暗示縮放是必需的randomForest迴歸變量暗角的任何建議。 This example at Stats Exchange也不使用縮放比例。

我的意見的副本:scale函數不屬於pkg:caret。它是「基礎」R包的一部分。 grtDMwR中有一個unscale函數可以反轉變換,也可以簡單地乘以scale屬性,然後添加中心屬性值。

您對「正常化」爲什麼需要完成的概念可能需要嚴格檢查。只有在迴歸完成後才需要進行非正態性檢驗,如果沒有適合度方法的正常假設,則可能根本不需要檢驗非正態性。所以:你爲什麼問?在SO和Stats.Exchange中搜索可能證明是有用的: citation #1; citation #2; citation #3

boxcox函數是一個常用的變形,當一個人沒有事先知道的分佈「應該」和當你真的需要做一個變形。在應用轉換方面存在很多缺陷,因此您需要提出這個問題的事實引起了您可能需要進一步諮詢或自學的擔憂。

+0

我理解我的問題的規範化是數據簡單線性轉換爲間隔0-1。這應該是例如當使用神經網絡時。所以我問的時候需要的是Hong Ooi的回答。我沒有找到你建議的功能unscale。但謝謝你的努力。 – gutompf

+0

添加引用來回答你的第二個問題。 –

+0

我appologise - 我忽略了非規模是包grt和DMwR – gutompf

31

不,對於隨機森林,縮放不是必需的。

  • RF的性質是這樣的收斂和數值精度的問題,這有時會絆倒在後勤和線性迴歸,以及神經網絡中使用的算法,是不那麼重要。正因爲如此,您不需要像使用NN一樣將變量轉換爲常見的規模。

  • 你沒有得到任何類似的迴歸係數,它衡量每個預測變量和迴應之間的關係。因此,您也不需要考慮如何解釋這些受變量測量標度影響的係數。

+0

非常感謝 – gutompf

+8

不僅縮放不是必要的,它可以平滑非線性本質該模型。如果在p維空間中存在複雜的非線性關係並且已經轉換了數據,那麼當您對y進行反向轉換時,這些非線性並未反映在估計中。 –

+2

@JeffreyEvans請請結合您的評論併發布他們作爲答案。否則,這將在每個人的雷達下滑倒。你在說**「不,這不僅是不必要的,它是有害的,因爲以下原因a)b)c)......」** – smci

1

如果你要交互添加到數據集 - 也就是新的變量是其他變量的一些功能(通常是簡單的乘法),你不覺得這是什麼新的變量代表(不能interprete吧),那麼你應該使用縮放變量來計算這個變量。

+4

隨機森林是一個非線性模型,並且節點分裂統計賬戶的性質用於高維相互作用。因此,嘗試定義交互變量是不必要的,也是非常不可取的。 –

0

猜猜,下面的例子會發生什麼?想象一下,你有20個預測特徵,其中18個在[0; 10]範圍內,另外2個在[0; 1,000,000]範圍內(取自現實生活中的例子)。問題1:隨機森林分配什麼功能重要性。問題2:縮放2個大範圍特徵後,特徵重要性會發生什麼變化?

縮放比較重要。隨機森林對縮放比其他算法更不敏感,並且可以使用「粗略」縮放功能。