2016-12-04 42 views
-4

問題:一個公司在數據明顯錯誤,找到它,並從進一步的分析排除。查找數據錯誤,其中R

數據是因素。

有人可以幫助我與任何簡單的方法來發現數據錯誤? 公司的編號在「custnr」欄中。所以從這一列我們會發現數據中的錯誤。有些提示?

zon  age custnr agree  dur claim skadkost claimfreq 
1 1  0  15  2 1.585216  0  0 0.0000000 
2 1  0 145  47 12.062971  377 294556 31.2526668 
3 1  0 184  6 3.321013  4 22152 1.2044518 
4 1  0 226  9 5.336071  5  882 0.9370190 
5 1  0 231  6 4.865161  1 67395 0.2055431 
6 1  0 385  4 5.998631  1  8869 0.1667047 
+1

你是什麼意思的錯誤? NA值?負值? –

+0

我不知道,數據集是相當大的,他們只是說找到「明顯」的錯誤。對我而言,這不是「明顯的」。但它適用於我會說。我不想要任何負值或NA值。 @KiprasKančys – laea93

+0

你可以嘗試做一個每列的箱形圖,看看是否有明顯的異常值。 –

回答

0

刪除NA值。

dataNoNa <- data[!is.na(data$custnr), ] 

刪除負值。

dataClean <- dataNoNa[dataNoNa$custnr > 0, ]