發現關於許多轉換,可以在目標值(Y列)被應用於數據集的,如框-Cox變換後我得知線性迴歸模型需要被以與正態分佈目標值訓練是有效的。(https://stats.stackexchange.com/questions/298/in-linear-regression-when-is-it-appropriate-to-use-the-log-of-an-independent-va)如果使用正態分佈的目標值進行訓練,非線性迴歸算法性能會更好嗎?
我想知道是否這同樣適用於非線性迴歸算法。現在我看到kaggle上的人使用log轉換來減少異方差,通過使用xgboost,但他們從來沒有提到它是否也用於獲取正態分佈的目標值。
我試過做一些研究,並在第11頁的Andrew Ng的講義筆記(http://cs229.stanford.edu/notes/cs229-notes1.pdf)中發現,許多線性和非線性算法使用的最小二乘成本函數是通過假設正態分佈錯誤。我相信如果錯誤應該是正態分佈的,那麼目標值也應該是一樣的。 如果這是真的,那麼使用最小二乘成本函數的所有迴歸算法應該對正態分佈的目標值更好地工作。
因爲xgboost使用最小二乘成本函數進行節點分割(http://cilvr.cs.nyu.edu/diglib/lsml/lecture03-trees-boosting.pdf - 幻燈片13),那麼如果我使用box-cox轉換來轉換目標值以訓練模型,然後應用反轉box-cox轉換在輸出上以獲得預測值。 這在理論上會給出更好的結果嗎?
如果你從非正常誤差的線性函數生成的數據和應用線性迴歸它的配合不會是最爲有效的,但因爲它是給予足夠的數據一致估計你會收斂到正確的答案 - 搜索在https://en.wikipedia.org/wiki/Ordinary_least_squares中保持一致。如果您以某種方式轉換數據,這意味着底層曲線不再是線性的,則線性迴歸無法爲您返回正確的答案。 – mcdowella
謝謝你的答案,但主要問題涉及非線性迴歸。 –