檢測因子級別是數字還是R中的字符串

我有一些R中的數據，它包含缺少數據的特殊字符串。我想subset原始數據幀爲有效數據和一個只有缺失數據。檢測因子級別是數字還是R中的字符串

在下面的示例中，我有一些數字值和缺少數據的兩個字符串（MD1和MD2）。

DF <- data.frame(x = c(1, 2, 3, "MD1", 5, "MD2"))

如果只有幾個這樣的字符串，我可以列舉出來，並提取子集（這不是我是如何做到的，但它是簡單而符合這個問題的目的）：

DF.invalid <- droplevels(subset(DF, x == "MD1" | x == "MD2")) 
DF.valid <- subset(DF, x != "MD1" & x != "MD2") 
DF.valid$x <- as.numeric(levels(DF.valid$x))[DF.valid$x]

我的問題是，缺少的數據字符串可能不會提前知道。是否有適當的（優雅的）方法來檢測MD1和MD2是否爲非數字並實現此結果，而不檢查數據框並枚舉非數字級別？

來源

2016-12-12 philsf

做'as.numeric（levels（df $ x）[df $ x]）'，那些變成'NA'的是非數字的。 –

讓x成爲數據幀dat的因數列「具有混合數字和字符級別」（實際上所有級別都是字符）。

要提取「級人物」，使用方法：

na.idx <- is.na(suppressWarnings(as.numeric(levels(x)))) 
non.num.levels <- levels(x)[na.idx]

如果你想子集dat與水平，你可以使用

subset(dat, x %in% non.num.levels)

但更好的方法是通過：

subset(dat, na.idx[x])

來源

2016-12-12 20:35:03

在你看來，我應該在這裏使用data.table，而不是data.frames？ – philsf

檢測因子級別是數字還是R中的字符串

回答

相關問題