data.table

-1熱度

1回答

我創建data.table這樣的： dd<-data.table(c(7,8,9),c(10,5,10),c(8,9,11)) 然後我嘗試使用:=通過它的功能，但我得到條件具有長度> 1錯誤。 dd[,Cat:= as.factor(if(V1 > V2 & V2 > V3) {"decrease,decrease"} else if(V1 > V2 & V2 < V3) {"decrea

-1熱度

1回答

LEFT JOIN合併data.table

我想做一個左2個data.frames上R，使用data.table庫聯接。我擁有的一切： library(data.table) id<-c("a1","a2","a3","a4") id2<-c("a2","a3","a1","a4") y<-c(1,2,3,4) z<-c(3,5,6,7) k<-c(1,3,8,7) df1<-data.table(id,y,z) id<-

1熱度

1回答

通過只匹配列名稱中的字符串模式將大量data.table列轉換爲因子

我試圖轉換一個data.table中的某個特定字符串「_cat」分類數據類型。 data.table中的列總數很大（超過700），我不想通過700多列來找出哪些列中的_cat用於更改數據類型。（它們是隨機遍佈data.table）首先我得到的邏輯數組，指示其列在他們的名字「_cat」： cat_id <- grepl('_cat', colnames(dt)) 不知何故，我不得不使用這個C

4熱度

2回答

R：由於丟失符號而無法加載data.table _omp_set_num_threads

我有一個包含導入列表的R包，從未遇到加載最新版本的問題。我剛剛將data.table添加到列表中，現在無法加載該包。 OS：MACOS塞拉利昂10.12.5/6 GCC： Configured with: --prefix=/Library/Developer/CommandLineTools/usr --with-gxx-include-dir=/usr/include/c++/4.2.1 A

1熱度

1回答

使用數據表的聚合重疊間隔

我有一些示例數據，其中有（錯誤的）重疊間隔，所以我想將數據分成不重疊的間隔，根據原始數據將數據添加到每個間隔。假設我有一個數據表是這樣的： x <- c(1000, 2000, 2000, 1000, 1500) y <- c(1200, 3000, 4000, 2000, 3000) z <- c("a", "a", "a", "b", "b") n1 <- 1:5 n2 <- 4:8

1熱度

1回答

使用兩個變量過濾data.table，一個優雅的快速方式

我想問你是否有一種方法可以根據多個變量的組合進行過濾。更具體地講： library(dplyr) library(plyr) library(data.table) data <- iris %>% cbind(group = rep(c("a", "b", "c"), nrow(iris))) %>% as.data.table() Sepal.Length Sepal.Wi

0熱度

1回答

Rolling correlation with data.table

我試圖在兩個data.table列之間進行滾動關聯。 dt <- data.table(a=-1:10,b=1:12) > dt a b 1: -1 1 2: 0 2 3: 1 3 4: 2 4 5: 3 5 6: 4 6 7: 5 7 8: 6 8 9: 7 9 10: 8 10 11: 9 11 12: 10 12 這就是我一直在使用rollapply從

2熱度

2回答

如何使用更快的方式處理和組合列表中的數據幀

最後，我遇到了一個問題，那個數據處理非常緩慢，並附加了多個data.frames的行。我使用lapply和dplyr組合進行數據處理。 OTH，由於每個數據幀中有20000行乘以目錄中的100個文件，進程變得非常慢。目前這對我來說是一個巨大的瓶頸，因爲即使在lapply過程完成後我沒有足夠的內存來處理bind_rows過程。這裏是我的數據處理方法，先的文件列表 files <- list.f

2熱度

2回答

爲每個組填充時間序列的有效方法

我正在尋找一種按時間填寫時間序列數據集的方法。我使用的非常低效的方法是爲每個組設置split數據集，並在該列表的所有元素中應用自定義時間序列填充函數（在最大值和最小值之間創建序列，併合並）。不用說，這個行動不會通過分裂。我的數據集的樣子， source grp cnt 1: 83 2017-06-06 13:00:00 1 2: 83 2017-06-06 23:00:00 1

1熱度

2回答

使用R排除觀察值後快速找到分組的最小值

我需要在非常大的數據集（包含多個組）的情況下執行類似於以下的操作，並在某處使用.SD緩慢讀取。有沒有更快的方法來執行以下操作？更準確地說，我需要創建一個新列，其中包含每個組的最小值，排除該組中的某個觀察子集（類似於Excel中的minif）。 library(data.table) dt <- data.table(valid = c(0,1,1,0,1), a = c(1,