如何計算測試數據集中R的殘差標準誤差？

我已經分手了波士頓的數據集中到訓練和測試，如下設置：如何計算測試數據集中R的殘差標準誤差？

library(MASS) 
    smp_size <- floor(.7 * nrow(Boston)) 
    set.seed(133) 
    train_boston <- sample(seq_len(nrow(Boston)), size = smp_size) 
    train_ind <- sample(seq_len(nrow(Boston)), size = smp_size) 
    train_boston <- Boston[train_ind, ] 
    test_boston <- Boston[-train_ind,] 
    nrow(train_boston) 
    # [1] 354 
    nrow(test_boston) 
    # [1] 152

現在我使用如下LM功能得到RSE：

train_boston.lm <- lm(lstat~medv, train_boston) 
    summary(train_boston.lm) 
    summary(train_boston.lm)$sigma

我如何計算剩餘標準誤差爲測試數據集？我無法在測試數據集上使用lm函數。有沒有任何方法可以計算測試數據集上的RSE？

來源

2015-04-19 elysefaulkner

這裏您殘留標準錯誤是一樣的

summary(train_boston.lm)$sigma 
# [1] 4.73988 

sqrt(sum((fitted(train_boston.lm)-train_boston$lstat)^2)/ 
    (nrow(train_boston)-2)) 
# [1] 4.73988

你失去的估計兩個參數，因此你的自由度是n-2

隨着您的測試數據，你沒有真正做同樣的估算，但是如果您想計算相同類型的計算，則用模型中的預測值代替原始模型擬合值的新數據，則可以執行以下操作：

sqrt(sum((predict(train_boston.lm, test_boston)-test_boston$lstat)^2)/ 
    (nrow(test_boston)-2))

雖然它可能更有意義只是爲了計算預測殘差

sd(predict(train_boston.lm, test_boston)-test_boston$lstat)

來源

2015-04-19 03:48:49 MrFlick

的標準差我得到的RSE測試設定得比訓練集低？情況總是如此嗎？ – elysefaulkner

否。測試集是完全獨立的。你可以做一個測試集來獲得你想要的任何RSE。這是因爲RSE在測試集中的含義並不像它在訓練集中那樣。 – MrFlick

如何計算測試數據集中R的殘差標準誤差？

回答

相關問題