我最近開始學習Python中的一些基本的統計建模,並且我對Microsoft Excel如何處理線性迴歸感到好奇。運行迴歸分析時,excel是否將訓練和測試數據分開?擅長分裂訓練和測試數據嗎?
此外,據我瞭解,分裂訓練和測試數據用於防止過度擬合模型的數據。這是線性迴歸的風險嗎?是否有必要在線性迴歸中進行列車測試分割?
感謝
我最近開始學習Python中的一些基本的統計建模,並且我對Microsoft Excel如何處理線性迴歸感到好奇。運行迴歸分析時,excel是否將訓練和測試數據分開?擅長分裂訓練和測試數據嗎?
此外,據我瞭解,分裂訓練和測試數據用於防止過度擬合模型的數據。這是線性迴歸的風險嗎?是否有必要在線性迴歸中進行列車測試分割?
感謝
首先,我認爲你應該使用交叉驗證來檢查不同模型的性能之前,你實際應用的任何機器學習算法。請查找材料here。
我不知道如何Excel分裂數據集。因爲你使用python,我強烈建議你可以使用sklearn和pandas(python模塊)。這是如何工作的x_train, x_validation, y_train, y_validation = model_selection.train_test_split(x,y,test_size=self.validation_size,random_state=self.seed,stratify=y
。更詳細的信息可以參見here。
是否需要在線性迴歸中執行列車測試拆分?是的。 如果您不分割數據集並訓練所有數據以適應模型,那麼會導致過度擬合,這意味着您的最終預測準確性將會很高。但它不可靠。該模型對訓練數據非常準確,但對於未經訓練或新數據可能會非常不準確。
我希望這會回答你的問題。
據我所知,沒有必要爲線性迴歸測試數據。只需測試異方差性,多重共線性(然後去除相關變量),並測試您的假設並改進模型。 不知道Excel如何執行它。 – AlexanderMP