只顯示一行每個NA值

在我的腳本某些時候，我喜歡看到我的data.frame的missing values 數量並顯示出來。在我的情況下，我有：只顯示一行每個NA值

out <- read.csv(file="...../OUT.csv", na.strings="NULL") 

sum(is.na(out$codeHelper)) 

out[is.na(out$codeHelper),c(1,length(colnames(out)))]

它工作得很好。不過，最後的命令顯然給了我整個data.frame其中NA是TRUE，如：

5561     Yemen (PDR) <NA> 
5562     Yemen (PDR) <NA> 
5563     Yemen (PDR) <NA> 
5564     Yemen (PDR) <NA> 
5565     Yemen (PDR) <NA> 
5566     Yemen (PDR) <NA> 
5567     Yemen (PDR) <NA> 
5568     Yemen (PDR) <NA> 
5601 Zaire (Democ Republic Congo) <NA> 
5602 Zaire (Democ Republic Congo) <NA> 
5603 Zaire (Democ Republic Congo) <NA> 
5604 Zaire (Democ Republic Congo) <NA> 
5605 Zaire (Democ Republic Congo) <NA>

有了一個大的框架和大量的NAS看起來相當混亂。對我很重要的是，只有在NA出現的地方，即哪個國家的（第二列）在第三列中有一個缺失值。

那麼我怎麼能只顯示每個國家的單行？

它應該是這個樣子：

1     Yemen (PDR) <NA> 
    2 Zaire (Democ Republic Congo) <NA> 
    3       USA <NA> 
    4      W. Samoa <NA>

來源

2010-02-02 mropa

使用'ncol（x）'而不是'length（colnames（x））' – hadley

unique(c(1,2,3,4,4))

會給你

所以

unique(out[is.na(out$codeHelper),c(1,length(colnames(out)))])

應該是你在找什麼？

來源

2010-02-02 10:00:02 pufferfish

完美，我正在尋找這樣的功能！謝謝！ – mropa

嘗試是這樣的：

subset(dataframe.name, !duplicated(country.colname), 
     select=c(col1.name, col2.name, ...))

也看到此相關的問題：how to remove partial duplicates from a data frame?

來源

2010-02-02 09:57:21 rcs

只顯示一行每個NA值

回答

相關問題