我是R的新手,正在研究我的第一個數據集,因此也提出了這些問題。如果它非常基本,我的道歉。R最常見的因素(是/否)
我有一個數據框(Df
)與幾列(一些整數,一些因素和幾個文本)。
因子變量(例如:f1)都有True/False/NA值。我試圖用最頻繁的值替換缺失的值。
我知道每個這些因子變量的最頻繁的值。我發現他們使用summary(Df)
。但是,不想要硬編碼或使用太多的代碼行。我來自數據庫背景,我將數據框可視化爲一個表格,並將此因素變量視爲一列。也許這就是我的問題!
以下是我試過的選項,以及爲什麼它沒有工作:
Df$f1[is.na(Df$D1)] <- median(as.numeric(levels(Df$f1)),na.rm=TRUE)
這沒有工作,因爲它拋出一個warning : NAs introduced by coercion
。
- 我試圖使用
as.numeric
將因子轉換爲數字,並找到中位數和重新編碼。但它將大部分轉換爲NA
s。
請幫忙!