我有一個數據框(df
)或數據表(dt
),假設有1000個變量和1000個觀察值。我檢查了觀察中沒有重複,所以dt[!duplicated(dt)]
與原始文件具有相同的長度。創建一個唯一的ID變量作爲變量的組合
我想創建一個ID變量爲所有這些觀察與我有一千個變量的組合。 與其他SO問題不同,因爲我不知道哪些變量更適合創建ID,並且可能需要至少3個或4個變量的組合。
R中是否有任何包/功能可以使我獲得最有效的變量組合來創建ID變量?在我的真實例子中,我正在努力手動創建一個ID,並且它可能不是變量的最佳組合。
例與mtcars:
require(data.table)
example <- data.table(mtcars)
rownames(example) <- NULL # Delete mtcars row names
example <- example[!duplicated(example),]
example[,id_var_wrong := paste0(mpg,"_",cyl)]
length(unique(example$id_var_wrong)) # Wrong ID, there are only 27 different values for this variable despite 32 observations
example[,id_var_good := paste0(wt,"_",qsec)]
length(unique(example$id_var_good)) # Good ID as there are equal number of unique values as different observations.
是否有任何功能,自動和手動沒有找到wt
和qsec
?
可能的重複[分配基於兩列的唯一ID](https://stackoverflow.com/questions/42921674/assign-unique-id-based-on-two-columns) – Florian
你正在做這個浮點值。所以,有問題 – akrun
ID必須是人類可讀的嗎?如果沒有,你可以嘗試[uuid](https://cran.r-project.org/web/packages/uuid/index.html)包。 –