我正在優化我的數據框以擺脫無用的變量。第一步我做的是去除具有比其行作爲NA值的一半以上列,使用這個命令:刪除大量零的列
limit <- nrow(mydata)/2
mydata <- mydata[, which(as.numeric(colSums(!is.na(mydata))) > limit)]
我很期待作出零同樣的事情,但我無法找到一個功能像「is.zero()」,我該怎麼做?
,我很期待做的另一件事,是去除重複的任何值不是「限制」倍以上任一列(如果這樣的命令存在,它是理想的!)
非常感謝,
謝謝,我的大腦停止工作f或某種原因! 你認爲有辦法做到這一點的第二部分?我的意思是刪除任何值不斷重複,而不是指定「零」或什麼? – Error404 2013-03-08 15:28:40
@ Error404:請參閱編輯。 – NPE 2013-03-08 15:30:35
爲什麼要對錶格進行排序而不是使用'max'? (或者,因爲你正在測試是否超過閾值,所以'any'?) – 2013-03-08 15:36:54