2016-10-18 52 views
-1

我發現此腳本用於識別和刪除數據中的異常值。該代碼可讓您選擇是否要刪除檢測到的異常值。這裏是它的鏈接代碼和文章:在R中列出異常值

https://www.r-bloggers.com/identify-describe-plot-and-remove-the-outliers-from-the-dataset/

我想要做的是不去除異常值,而是將它們複製並創建一個不同的數據與他們建立。例如,如果我有一個100 000條記錄的數據集,並且此腳本檢測到3500個異常值,我希望將這3500條記錄創建爲僅包含這些記錄的整個數據集,以便稍後對其進行額外分析。我不想從原始數據集中刪除它們。

有沒有辦法做到這一點?謝謝!

實施例:

var1 var2 
a  15  
b  1 
c  2 
d  1 
e  3 

然後,該算法識別出第1行

var1 var2 
a  15 

是異常值並顯示的東西的排序:

離羣值檢測:1 百分比:20%

等等等等。但是腳本不會給我一個單獨的數據集,其中只包含異常值。我怎麼做?請?

+2

歡迎來到StackOverflow。請提供一個[MCVE] –

+0

@StevenBeaupré我編輯了這個問題。我希望這樣做就足夠了,因爲除了信息和例子之外,沒有什麼可以提供的。 –

回答

1

您可以使用以下方法獲取異常值:boxplot.stats(x)$out