通過不同的數據幀迴路迴歸

目標是在不同的訓練數據框上執行多個logit迴歸，然後評估各個測試數據集的性能。通過不同的數據幀迴路迴歸

首先，我們從df創建多個（5）隨機取樣的數據幀：

for(i in 1:5) { 
nr <- paste("random_df", i, sep = "_") 
assign(nr, random_df[sample(nrow(df)),]) 
}

然後，我們創建用於分離指標分成訓練 - 和測試集：

train <- 1:(length(df$y)*0.8) 
test <- !(1:nrow(df) %in% train)

現在我們想要在每個訓練數據框上循環logit迴歸。這是第一個問題，因爲我們只能將輸出創建爲矩陣或列表。此外，我們也創造了隨機樣本的列表，數據幀或矩陣：

lr_list <- list(random_df_1,random_df_2,random_df_3,random_df_4,random_df_5)

然後，我們遍歷列表中的所有數據幀分對數迴歸：

for(i in 1:5) { 
    index <- paste("lr_train", i, sep = "_") 
    assign(index, lapply(lr_list, function(x) {glm(y ~ x1 + x2, data=x, 
    subset=train, family=binomial)})) 
}

這裏lapply創建一個列表和每個估計結果的矩陣。

的目標是獲得在一個glm對象的形式的輸出，以便進行使用每個列車GLM預測，從而能夠評價在不同的測試 - /列車數據星座模型性能：

lr_test_1 <- predict(lr_train_1, random_df_1[test, ], type="response")

任何幫助，非常感謝。

來源

2017-08-02 Dima

你應該看看'modelr'包。它使得很多東西變得更加簡單：https://github.com/tidyverse/modelr –

Thanks @AndrewBrēza您可以給我一個提示，說明如何重新採樣，而不是評估多個列車上的模型，並測試使用'modelr'package設置**？ – Dima

我敢肯定，你誤解了lapply的使用和輸出。它遍歷輸入並創建一系列對象，這些對象是您使用的函數輸出的典型類。

如果我看了你的代碼正確，這部分

for(i in 1:5) { 
    index <- paste("lr_train", i, sep = "_") 
    assign(index, lapply(lr_list, function(x) {glm(y ~ x1 + x2, data=x, 
    subset=train, family=binomial)})) 
}

基本上循環兩次過同樣的事情，因此創建五個相同的列表。

相反，只需使用：

lr_train <- lapply(lr_list, function(x) {glm(y ~ x1 + x2, data=x, 
     subset=train, family=binomial)})

，然後mapply您predict在GLM對象的列表。

lr_test <- mapply(function(x, y) predict(x, y[test, ], type = "response"), lr_train, lr_list)

請注意，由於缺少工作數據示例，因此未經測試。

來源

2017-08-02 13:38:10 LAP

謝謝@Leo P.雖然沒有經過測試，但它工作得很好。你說得對，我誤解了'lappy'。我們繼續使用：lr_estim < - cut（lr_test，breaks = c（-Inf，.5，Inf），labels = c（0,1））'來創建一個因子。然後我們通過'lr_tab < - lapply（lr_list，function（x）{table（x $ y [test]，lr_estim，dnn = c（「real」，「prediction」））}）創建一個列表。下一個問題在於從_lr_tab_創建一個'prop.table'，因爲它是一個列表，而不是一張表。謝謝你的幫助。 – Dima

那麼，不久前我學到了一個包裝dplyr和purrr的招數。這是關於使用嵌套data.frame工作：

nested_df <- tibble(subdf = 1:5) %>% # Choose number of 'random_df' 
    rowwise() %>% 
    mutate(data = list(df[sample(nrow(df)),])) %>% # create a list of random data.frames within our data.frame 
    ungroup() %>% 
    mutate(model = map(data, ~ glm(y ~ x1 + x2, data = .x, 
            subset = train, family = binomial))) # iterate with map throug all of data.frame's in column data 


nested_df 

    subdf     data  model 
    <int>     <list> <list> 
1  1 <data.frame [100 x 3]> <S3: glm> 
2  2 <data.frame [100 x 3]> <S3: glm> 
3  3 <data.frame [100 x 3]> <S3: glm> 
4  4 <data.frame [100 x 3]> <S3: glm> 
5  5 <data.frame [100 x 3]> <S3: glm>

而且我們可以看看在每一個model：

nested_df$model[[1]] 

Call: glm(formula = y ~ x1 + x2, family = binomial, data = .x, subset = train) 

Coefficients: 
(Intercept)   x1b   x1c   x2 
    3.467e+00 -5.085e-03 1.300e-02 9.368e-05 

Degrees of Freedom: 79 Total (i.e. Null); 76 Residual 
Null Deviance:  0.3428 
Residual Deviance: 0.3408 AIC: 12.7

輸出從我的快速模擬df

df <- data.frame(y = rnorm(100, 100), 
       x1 = sample(letters[1:3], size = 100, replace = T), 
       x2 = runif(100 ,0, 1000)) %>% 
    mutate(y = y/max(y))

您可以預測每個GLM具有相似結構的mutate()和map()

來源

2017-08-02 13:46:16

您需要使用map2/pmap進行預測...％>％mutate（pred = map2（model，data，predict）） –

map屬於哪個軟件包？ – Dima

@Dima在我的回答中發現了一個錯誤，包'purrr'。 –

通過不同的數據幀迴路迴歸

回答

相關問題