data.table

    0熱度

    1回答

    爲NAS位數斌多個存在的R data.table列這裏是我的示例代碼: library(data.table) library(binr) DT <- data.table(A=rnorm(100), B=rnorm(100), C=rnorm(100)) na_rows <- sample(DT[,.N], 10) cols = c("A", "B") DT[na_rows, (co

    3熱度

    1回答

    我一直在研究很多新項目,我正在做很多不熟悉的數據準備和管理。我有兩個數據框:1)非常大,包含數千個觀察值和變量(df1); 2)數據框,列出df1(df2)中變量子集的收集年限範圍。我需要在df1中爲df1中的大部分變量/列創建一個新變量。爲df1創建的新變量將檢查值是否存在(1),一年中收集的值不存在(0),或值不存在且年份超出列出的收集範圍在df2('NA')。 我已經花了幾天時間讀了大量的l

    0熱度

    2回答

    考慮,我有以下data.table d <- data.table(group=rep(letters[1:5],c(30,20,20,20,10)), x=1:100, y=101:201) 代表其分佈情況 d[,.N,by=group] 現在5組數據,我該如何選擇一個小樣本,假設10行(或10%的數據),大致上具有基於一列或多列的類似組分佈。因此,對於上表的假設子集,我可以收到會是這樣

    0熱度

    1回答

    我正在尋找有關以下問題的幫助。 我有一個由五個級別組成的層次標識符的data.table。格式是[level_1]-[level_2]-[level_3].[level_4].[level_5](注意連字符分隔水平1,2和3與3,4和5之間的時間段)。我已經做出了比我的真實數據(它有6個級別)稍微小一點 - 我認爲這個解決方案的工作原理是一樣的。 一些玩具數據: my_dt = setDT(dat

    0熱度

    1回答

    我正在處理一個包含X和Y列的data.table,並且我想創建一個新的列Z,它是所有記錄的數目(X,Y)的相同值。 我知道的語法與data.frame工作時: ddply(df,.(X,Y),nrow) 我測試了不同的語法我在這個論壇上找到,但他們沒有工作: dt[, Z := lapply(.SD,nrow), by="X,Y"] # or dt[, `:=`(Z = lapply(.SD

    -1熱度

    2回答

    我有一個帶有<NA>的字符列,我想用行下面的字符替換它。下面是一個例子: df12 <- structure( list(Reg = structure(c(NA, 1L, 1L, NA, 1L, 1L, NA, 2L, 2L, NA, 2L, 2L, NA, 2L, 2L) , .Label = c("A", "B"), class = "factor"))

    -1熱度

    1回答

    我想要在Reg中安排城市,使得如果Reg和City匹配,那麼應該在Reg中排在最前面,其餘城市應按字母順序以升序排列。下面給出了長需求的摘錄。 所需的輸出 Reg City Res Pop Pop1 A A Total 204 19 A A Rural 101 10 A A Urban 103 9 A a Total 109 11 A a Rura

    5熱度

    1回答

    我想從ftp://ftp.ncdc.noaa.gov/pub/data/ghcn/daily/ghcnd-stations.txt讀取氣候站信息。 然而,由於第一行不完全填充(最後兩位的cols失蹤)5列包含空格,我無法完成與閱讀: fread('ftp://ftp.ncdc.noaa.gov/pub/data/ghcn/daily/ghcnd-stations.txt',sep=) 它返回的

    0熱度

    1回答

    當我嘗試將ggplot和data.table一起使用時,我發現了一個似乎是bug的奇怪行爲。 根據我在data.table中設置的行的順序(使用setkey(data,V1,V2 ..)),facet_grid完全不同。 下面是工作facet_grid的示例: setkey(dat.rel,FINISH_TIME_BUFFER) #Set Order of Rows according t FIN

    0熱度

    2回答

    我有一個data.table包含來自不同位置(站點)的小時觀測的時間序列。在每個序列中都有缺口 - 缺少小時。我想填寫每個站點的小時序列,因此每個小時都有一行(儘管數據將丟失,不適用)。 實施例的數據: library(data.table) library(lubridate) DT <- data.table(site = rep(LETTERS[1:2], each = 3),