R功能可在多個列之間創建唯一的指示變量值

我正在使用藥物濫用警告網絡數據來分析ER訪問中的常見藥物組合。每種額外的藥物都通過變量DRUGID_1 .... 16中的數字編碼。所以Pt1可能有DRUGID_1 = 44（可卡因）和DRUGID_3 = 20（海洛因），而Pt2可能有DRUGID_1 = 20（海洛因），DRUGID_3 = 44（可卡因）。R功能可在多個列之間創建唯一的指示變量值

我希望我的函數循環遍歷DRUGID_1 ... 16，並且對於200萬患者中的每一個爲每個獨特的藥物提及創建一個新的二元變量列，併爲該pt設置值爲1。因此，二元變量Heroin的值爲1表示在提到DRUGID_1 .... 16海洛因的某處。

respDRUGID <- character(0) 
DRUGID.df <- data.frame(allDAWN$DRUGID_1, allDAWN$DRUGID_2, allDAWN$DRUGID_3) 

Count <- 0 
DrugPicker <- function(DRUGID.df){ 
    for(i in seq_along(DRUGID.df$allDAWN.DRUGID_1)){ 
    if (!'NA' %in% DRUGID.df[,allDAWN.DRUGID_1]){ 
     if (!is.element(DRUGID.df$allDAWN.DRUGID_1,respDRUGID)){ 
     Count <- Count + 1 
     respDRUGID[Count] <- as.character(DRUGID.df$allDAWN.DRUGID_1[Count]) 
     assign(paste('r', as.character(respDRUGID[Count,]), sep='.'), 1)} 
     else { 
     assign(paste("r", as.character(respDRUGID[Count,]), sep='.'), 1)} 
    } 
    } 
} 
DrugPicker(DRUGID.df)

在這裏，我試圖首先要包含每個新DRUGIDx值（respDRUGID），以及總人數唯一DRUGID值的計數器（計數）和一個新的數據框（DRUGID.df）與列表只是相關的專欄。

該函數應該向下移動觀察值，如果不是NA，那麼如果DRUGID_1不在列表respDRUGID中，則創建一個新的列變量'r.DRUGID'並將值設置爲1.同時將唯一計數增加1 。否則DRUGID_1的值已經在列表respDRUGID然後設置r.DRUGID = 1

我想我已經看到get（）和apply（）函數的建議，但我沒有按照如何使用它們。生成的數據幀必須採用相同的obs x變量格式，因此合併將與調查設計人員權重變量保持一致。

來源

2017-08-15 Garglesoap

如果您提供樣本數據，您更有可能獲得幫助。用'dput'提供最少的樣本數據是首選 – epi99

猜測您的數據和所需的結果格式。使用包裝外觀

drug_df <- read.csv(text=' 
patient,DRUGID_1,DRUGID_2,DRUGID_3 
A,1,2,3 
B,2,, 
C,2,1, 
D,3,1,2 
') 

library(tidyverse) 
gather(drug_df, value = "DRUGID", ... = -patient, na.rm = TRUE) %>% 
    arrange(patient, DRUGID) %>% 
    group_by(patient) %>% 
    summarize(DRUGIDs = paste(DRUGID, collapse=",")) 

# patient DRUGIDs 
# <fctr> <chr> 
# 1  A 1,2,3 
# 2  B  2 
# 3  C  1,2 
# 4  D 1,2,3

來源

2017-08-16 01:33:20 epi99

我發現另一個帖子，正是我想要使用stringr，destring，sapply和grepl。這將每個變量組合成一個字符串後效果很好。

Creating dummy variables in R based on multiple chr values within each cell

非常感謝epi99其崗位幫助想以另一種方式的問題。

來源

2017-08-24 21:38:51 Garglesoap

R功能可在多個列之間創建唯一的指示變量值

回答

相關問題