data.table

0熱度

1回答

爲NAS位數斌多個存在的R data.table列這裏是我的示例代碼： library(data.table) library(binr) DT <- data.table(A=rnorm(100), B=rnorm(100), C=rnorm(100)) na_rows <- sample(DT[,.N], 10) cols = c("A", "B") DT[na_rows, (co

3熱度

1回答

lapply - 基於當前變量創建新的變量，有條件地基於第二個數據幀中的信息

我一直在研究很多新項目，我正在做很多不熟悉的數據準備和管理。我有兩個數據框：1）非常大，包含數千個觀察值和變量（df1）; 2）數據框，列出df1（df2）中變量子集的收集年限範圍。我需要在df1中爲df1中的大部分變量/列創建一個新變量。爲df1創建的新變量將檢查值是否存在（1），一年中收集的值不存在（0），或值不存在且年份超出列出的收集範圍在df2（'NA'）。我已經花了幾天時間讀了大量的l

0熱度

2回答

選擇隨機行同時保持原始數據分佈的比例？

考慮，我有以下data.table d <- data.table(group=rep(letters[1:5],c(30,20,20,20,10)), x=1:100, y=101:201) 代表其分佈情況 d[,.N,by=group] 現在5組數據，我該如何選擇一個小樣本，假設10行（或10％的數據），大致上具有基於一列或多列的類似組分佈。因此，對於上表的假設子集，我可以收到會是這樣

0熱度

1回答

data.table：將row-wise粘貼功能應用於列表

我正在尋找有關以下問題的幫助。我有一個由五個級別組成的層次標識符的data.table。格式是[level_1]-[level_2]-[level_3].[level_4].[level_5]（注意連字符分隔水平1,2和3與3,4和5之間的時間段）。我已經做出了比我的真實數據（它有6個級別）稍微小一點 - 我認爲這個解決方案的工作原理是一樣的。一些玩具數據： my_dt = setDT(dat

0熱度

1回答

在多個列中創建data.table中的一個新列

我正在處理一個包含X和Y列的data.table，並且我想創建一個新的列Z，它是所有記錄的數目（X，Y）的相同值。我知道的語法與data.frame工作時： ddply(df,.(X,Y),nrow) 我測試了不同的語法我在這個論壇上找到，但他們沒有工作： dt[, Z := lapply(.SD,nrow), by="X,Y"] # or dt[, `:=`(Z = lapply(.SD

-1熱度

2回答

用以下行中的字符替換缺少的字符值使用R

我有一個帶有<NA>的字符列，我想用行下面的字符替換它。下面是一個例子： df12 <- structure( list(Reg = structure(c(NA, 1L, 1L, NA, 1L, 1L, NA, 2L, 2L, NA, 2L, 2L, NA, 2L, 2L) , .Label = c("A", "B"), class = "factor"))

-1熱度

1回答

兩個因素內的行的一些特殊安排

我想要在Reg中安排城市，使得如果Reg和City匹配，那麼應該在Reg中排在最前面，其餘城市應按字母順序以升序排列。下面給出了長需求的摘錄。所需的輸出 Reg City Res Pop Pop1 A A Total 204 19 A A Rural 101 10 A A Urban 103 9 A a Total 109 11 A a Rura

5熱度

1回答

如何用EOF解決fread txt的問題？

我想從ftp://ftp.ncdc.noaa.gov/pub/data/ghcn/daily/ghcnd-stations.txt讀取氣候站信息。然而，由於第一行不完全填充（最後兩位的cols失蹤）5列包含空格，我無法完成與閱讀： fread('ftp://ftp.ncdc.noaa.gov/pub/data/ghcn/daily/ghcnd-stations.txt',sep=) 它返回的

0熱度

1回答

ggplot facet_grid data.table訂單bug

當我嘗試將ggplot和data.table一起使用時，我發現了一個似乎是bug的奇怪行爲。根據我在data.table中設置的行的順序（使用setkey（data，V1，V2 ..）），facet_grid完全不同。下面是工作facet_grid的示例： setkey(dat.rel,FINISH_TIME_BUFFER) #Set Order of Rows according t FIN

0熱度

2回答

如何在data.table中的組內連續創建時間序列？

我有一個data.table包含來自不同位置（站點）的小時觀測的時間序列。在每個序列中都有缺口 - 缺少小時。我想填寫每個站點的小時序列，因此每個小時都有一行（儘管數據將丟失，不適用）。實施例的數據： library(data.table) library(lubridate) DT <- data.table(site = rep(LETTERS[1:2], each = 3),