使用適用於大ffdfs

基本思路是這樣的：我有一個大的ffdf（約550萬x 136字段）。我知道這個數據框中的一些列有全部是NA的列。我如何找出哪些和適當地刪除它們？使用適用於大ffdfs

我的直覺是像做（假設df是ffdf）：

apply(X=is.na(df[,1:136]), MARGIN = 2, FUN = sum)

應該給我NA數爲每列向量，然後我可以找到哪些具有〜5.5百萬NA值，刪除它們使用df <- df[,-c(vector of columns)]等。非常簡單。

但是，apply給了我一個錯誤。

Error: cannot allocate vector of size 21.6 Mb 
In addition: Warning messages: 
1: In `[.ff`(p, i2) : 
    Reached total allocation of 3889Mb: see help(memory.size) 
2: In `[.ff`(p, i2) : 
    Reached total allocation of 3889Mb: see help(memory.size) 
3: In `[.ff`(p, i2) : 
    Reached total allocation of 3889Mb: see help(memory.size) 
4: In `[.ff`(p, i2) : 
    Reached total allocation of 3889Mb: see help(memory.size)

這告訴我，apply無法處理這種規模的數據幀。有什麼替代方案可以使用嗎？

來源

2015-12-01 Clarinetist

如何只'DF [，colSums（is.na（DF [1：136]））！== nrow（DF）]'？ – zx8754

@ zx8754你的意思是'colSums'（請參閱我以前的編輯）？無論哪種方式，我仍然得到同樣的錯誤。 – Clarinetist

@ zx8754剛剛看到你的編輯，會嘗試 – Clarinetist

它更易於使用all(is.na(column))。因爲ffdf對象不是列表。

您在代碼中使用df[, 1:136]。這將導致ff嘗試將全部136列加載到內存中。這是導致內存問題的原因。當你做df[1:136]時，這不會發生。索引最終結果時會發生同樣的情況：df <- df[,-c(vector of columns)]將所有選定列讀入內存。

na_cols <- logical(136) 
for (i in seq_len(136)) { 
    na_cols[i] <- all(is.na(df[[i]])) 
} 

res <- df[!na_cols]

來源

2015-12-01 14:48:55

聲明'cols'時出現類似錯誤：'警告訊息： 1：在ff ::'[.ff'（x = x，i = i，pack = pack）中：達到3889Mb的總分配： .size） 2：在ff ::'[.ff'（x = x，i = i，pack = pack）中：達到3889Mb的總分配：見help（memory.size）' – Clarinetist

@Clarinetist我看到討論你的問題下的意見，並修改我的答案。您的錯誤是由於您的代碼將完整的數據集讀入內存引起的。 –

'cols'工作，'df [，！cols]'給了我一個類似的錯誤。 – Clarinetist

試試這個例子：

#dummy data 
df <- sample(1000000*5) 
df <- data.frame(matrix(df,nrow = 1000000)) 
df$X3 <- NA 
df$X6 <- NA 

#list of col to remove or keep 
colToRemove <- colnames(df)[ colSums(is.na(df[ ,1:6])) == nrow(df) ] 
colToKeep <- setdiff(colnames(df), colToRemove) 

#subset 
res <- df[, colToKeep] 

colnames(df) 
#[1] "X1" "X2" "X3" "X4" "X5" "X6" 
colnames(res) 
#[1] "X1" "X2" "X4" "X5"

來源

2015-12-01 15:04:32 zx8754

我的工作很好。 – Clarinetist

使用適用於大ffdfs

回答

相關問題