-4
問題:一個公司在數據明顯錯誤,找到它,並從進一步的分析排除。查找數據錯誤,其中R
數據是因素。
有人可以幫助我與任何簡單的方法來發現數據錯誤? 公司的編號在「custnr」欄中。所以從這一列我們會發現數據中的錯誤。有些提示?
zon age custnr agree dur claim skadkost claimfreq
1 1 0 15 2 1.585216 0 0 0.0000000
2 1 0 145 47 12.062971 377 294556 31.2526668
3 1 0 184 6 3.321013 4 22152 1.2044518
4 1 0 226 9 5.336071 5 882 0.9370190
5 1 0 231 6 4.865161 1 67395 0.2055431
6 1 0 385 4 5.998631 1 8869 0.1667047
你是什麼意思的錯誤? NA值?負值? –
我不知道,數據集是相當大的,他們只是說找到「明顯」的錯誤。對我而言,這不是「明顯的」。但它適用於我會說。我不想要任何負值或NA值。 @KiprasKančys – laea93
你可以嘗試做一個每列的箱形圖,看看是否有明顯的異常值。 –