所以我新的R和目前我正在試圖找出一組數據的異常值,到目前爲止,我已經輸入到R,如何從數據集中識別異常中的R
lifespan_yrs<- c(38.6, 4.5, 14, 8, 69, 27, 19, 30.4, 28, 50, 7, 30, 3.5,
40, 3.5, 50, 6, 10.4, 34, 7, 28, 20, 3.9, 39.3, 41, 16.2, 9, 7.6, 46, 22.4,
16.3, 2.6, 24, 100, 13, 10, 3.2, 2, 5, 6.5, 23.6, 12, 20.2, 13, 27, 18, 13.7,
4.7, 9.8, 29, 7, 6, 17, 20, 12.7, 3.5, 4.5, 7.5, 2.3, 24, 3, 13)
gestation_days<- c(645, 42, 60, 25, 624, 180, 35, 392, 63, 230, 112, 281, 35,
365, 42, 28, 42, 120, 75, 122, 400, 148, 16, 252, 310, 63, 28, 68, 336, 100, 33,
21.5, 50, 267, 30, 45, 19, 30, 12, 120, 440, 140, 170, 17, 115, 31, 63, 21, 52,
164, 225, 225, 150, 151, 90, 45, 60, 200, 46, 210, 14, 38)
lifespan_yrs
gestation_days
plot(gestation_days,lifespan_yrs)
而且我有這個數據的一個陰謀,但是問題的下一部分說「調查這個陰謀並且討論所有值得調查的數據點」我將這意味着數據中是否有任何異常值(我不確定什麼定義一個離羣值我可以/應該使用),然後有沒有辦法讓R以這種方式調查數據點? 請用簡單的語言來解釋這個,再說一遍,我是R的新手。
謝謝! Mollie x
如果您要求如何定義異常值,這實際上是一個統計問題,可以在http://stats.stackexchange.com/上更好地提出。如果你有一個你想要使用的定義,並且正在詢問如何在代碼中實現它,這是正確的網站要求。由於聽起來你還不知道如何定義離羣值,我建議stats.stackexchange.com。 – josliber
或者,也許沒有值得調查的要點。如果這是一項任務,您應該詢問您的導師澄清。對於異常值沒有普遍的定義。我們不知道作業的意圖是什麼。 – MrFlick
好的,謝謝@josliber我會這麼做的。 –