2

如何決定使用線性迴歸模型還是非線性迴歸模型?如何決定使用線性迴歸模型還是非線性迴歸模型

我的目標是預測Y.

在簡單X情況下,y數據集,我可以很容易地決定哪些迴歸模型應該通過繪製散點圖中使用。

在多變體像x1,x2,...,xny的情況下。我怎樣才能決定使用哪種迴歸模型?也就是說,我將如何決定使用簡單的線性模型還是非線性模型(如二次曲線,立方曲線等)。

是否有任何技術或統計方法或圖形圖來推斷和決定使用哪種迴歸模型?請指教。

回答

1

這是一個相當複雜的問題。你首先從視覺開始:如果數據是正態分佈的,並滿足經典線性模型的條件,則使用線性模型。我通常通過製作散點圖矩陣來觀察關係。如果顯然這種關係是非線性的,那麼你使用非線性模型。但是,很多時候,我通過視覺檢查,假設因素數量不多。 例如,這將是一個非線性模型:

http://otter-rsch.com/admodel/cc1pic.3.gif

但是,如果你想使用數據挖掘(和計算要求的方法),我建議從stepwise regression。你所做的是首先設置一個模型評估標準:例如可以是R^2。你開始一個沒有任何東西的模型,並順序地添加它們的預測變量或排列,直到你的模型評估標準被「最大化」。然而,增加新的預測器幾乎總會增加R^2,這是一種過度擬合。

解決方案是將數據分成訓練和測試。您應該根據培訓制定模型並評估測試的平均誤差。最好的模型將是最小化測試集上平均誤差的模型。

如果您的數據很稀疏,請嘗試在模型評估中集成嶺或拉索迴歸。

同樣,這是一種複雜的問題。答案也取決於你是建立描述性還是解釋性模型。