在R中快速處理很多很多行

我正在嘗試使用相同數量和名稱的列和行在兩個數據庫中處理R中的數據。一個數據庫（database1）具有'1'和' - '來指示哪些單元格值得關注。另一個數據庫（database2）只是充滿了數據。在R中快速處理很多很多行

我試圖用' - '替換數據庫2中所有'無價值的數據'（在database1中用' - '標記）。

我的代碼運行良好，但它確實很慢。在每個電子表格中有1900行和〜8000列，代碼需要運行大約4個小時以上，這是不理想的。

我怎樣才能讓這段代碼更快？任何幫助！謝謝！

下面的代碼（原諒變量名：P）：

for (n in 1:nrow(poopy)){ 
list <- 0 
gooddates <- colnames(additions[which(additions[n,] == ' 1 ' | additions[n,] == '1')]) #some cells have a '1' and others a ' 1 ', so this accounts for both. 
for (j in 1:length(gooddates)){ 
    nextdateindex <- which(gooddates[j] == colnames(additions))+1 #database1 is by month. database2 is by day, so I'm taking the intervals of gooddates. 
    if (is.na(colnames(additions)[nextdateindex])){ 
    nextdateindex <- '6.26.2014' 
    couple <- cbind(gooddates[j], nextdateindex) #start and end intervals of gooddates 
    list <- rbind(list, couple) 
    } 
    else{ 
    couple <- cbind(gooddates[j], colnames(additions)[nextdateindex]) 
    list <- rbind(list, couple) 
    } 
} 
list <- list[-1,] 

test <- poopy 

if (is.null(nrow(list))){ ##some lists will only have one interval. this changes the indexing for some reason. 
test <- test[n,-which(colnames(test) == list[1]):-(which(colnames(test) == list[2])-1)] 
} 
else{ 
for (i in 1:nrow(list)){ 
    test <- test[n,-which(colnames(test) == list[i,1]):-(which(colnames(test) == list[i,2])-1)] 
} 
} 

poopy[n,which((test == "--") == FALSE)[-1]] <- '--' 

}

編輯：數據庫1爲一個月; DATABASE2每天，所以1和--s無法從數據庫1匹配一對一到數據庫2。我假設數據庫1中的1在整個月內保持爲1，這就是爲什麼我在'couple'變量中做了一個範圍，它將database1中的日期作爲第一個列名，nextdateindex Database1中的下一個數據點。希望澄清它！

非常接近，羅蘭。謝謝你的嘗試！

來源

2014-07-24 Landmaster

您是否可以包含poopy樣本數據集？如果數據不敏感，請輸入（head（poopy，10））' – Vlo

沒什麼特別。數據集1有 - 和1。數據集2有數字。不同之處在於Dataset1具有數個月的列，而dataset2具有所有日期的列，因此列數不同。 – Landmaster

硬盤沒有輸入數據的說，但也許是這樣的：

#some artificial data 
set.seed(42) 
dat1 <- as.data.frame(matrix(rnorm(20), 5)) 
dat2 <- as.data.frame(matrix(sample(c(1, "--"),20, TRUE), 5)) 

#a one-liner 
dat1[dat2=="1"] <- NA 
dat1 
#   V1   V2   V3   V4 
# 1  NA -0.10612452   NA 0.6359504 
# 2  NA 1.51152200   NA -0.2842529 
# 3  NA -0.09465904   NA   NA 
# 4 0.6328626 2.01842371 -0.2787888   NA 
# 5  NA -0.06271410   NA 1.3201133

注意我是如何從結果爲R使用的NA代替"--"有很多設施，以應對NA值，這些似乎在你的數據中。

來源

2014-07-24 17:59:23 Roland

我最終創建了一個新的空表，其中包含database2的日期和rownames，名爲additions2。然後，我選擇數據庫中的有效列1，並將先前有效的行一直複製到下一個有效行，如下所示：

additions2 <- additions2[order(additions2$Security.Name),] 

valid <- which(colnames(additions2) %in% intersect(colnames(additions2), colnames(additions))) 

additions2[,valid] <- additions 
valid <- valid[-1] 

additions3 <- additions2 
for (i in (2:length(valid)-1)){ 
    additions2[,valid[i]:(valid[i+1]-1)] <- additions[1+i] 
} 

additions22 <- additions2 

additions22[,tail(valid,1):ncol(additions22)] <- additions[ncol(additions)]

來源

2014-07-25 14:33:33 Landmaster

在R中快速處理很多很多行

回答

相關問題