2017-06-22 95 views
0

我最近開始學習Python中的一些基本的統計建模,並且我對Microsoft Excel如何處理線性迴歸感到好奇。運行迴歸分析時,excel是否將訓練和測試數據分開?擅長分裂訓練和測試數據嗎?

此外,據我瞭解,分裂訓練和測試數據用於防止過度擬合模型的數據。這是線性迴歸的風險嗎?是否有必要在線性迴歸中進行列車測試分割?

感謝

+0

據我所知,沒有必要爲線性迴歸測試數據。只需測試異方差性,多重共線性(然後去除相關變量),並測試您的假設並改進模型。 不知道Excel如何執行它。 – AlexanderMP

回答

0

首先,我認爲你應該使用交叉驗證來檢查不同模型的性能之前,你實際應用的任何機器學習算法。請查找材料here

我不知道如何Excel分裂數據集。因爲你使用python,我強烈建議你可以使用sklearn和pandas(python模塊)。這是如何工作的x_train, x_validation, y_train, y_validation = model_selection.train_test_split(x,y,test_size=self.validation_size,random_state=self.seed,stratify=y。更詳細的信息可以參見here

是否需要在線性迴歸中執行列車測試拆分?是的。 如果您不分割數據集並訓練所有數據以適應模型,那麼會導致過度擬合,這意味着您的最終預測準確性將會很高。但它不可靠。該模型對訓練數據非常準確,但對於未經訓練或新數據可能會非常不準確。

我希望這會回答你的問題。

相關問題