1
我正在處理一個大型的數據集(3.5M行和40列),我需要清除一些值,這樣我才能夠計算其他參數,當我開始制定時數據模型。對ffdf對象的數據幀進行計算
問題是,它一直在使用我一直在使用的for循環,因此我想嘗試使用ff軟件包。數據框被稱爲數據,它由銀行的大量客戶信息組成。它被導入爲.csv文件。我需要做的是去除所有的客戶(標記序列),如果他們AverageStanding變量是有史以來負
> ffd<-as.ffdf(data)
> lastserial = tail(ffd$Serial,1)
> for(k in 1:lastserial){
+ tempvecWith <- vector()
+ tempvecWith <- ffd[ffd$Serial==k, ]$AverageStanding
+ if(any(tempvecWith < 0)){
+ ffd_clean<- ffd[!ffd$Serial ==k, ]
+ }
+ }
這是我收到的錯誤:
Error in as.hi.integer(x, maxindex = maxindex, dim = dim, vw = vw, pack = pack) :
NAs in as.hi.integer
我如何能避免任何想法這些錯誤?