2013-07-09 155 views

回答

7

抖動實際上意味着只是將隨機噪聲添加到數值向量中,默認情況下這是在抖動中完成的,通過從均勻分佈中抽取樣本來完成。如果的數量爲-沒有提供參數,則根據數據選擇抖動中的值的範圍。

我認爲術語'抖動'涵蓋了除統一之外的其他分佈,並且它通常用於更好地可視化重疊值,例如整數協變量。這有助於掌握觀測密度高的地方。在數字圖例中提及一些值是否已經抖動,即使它很明顯,也是一個很好的做法。下面是一個例子的可視化與抖動 -function以及正態分佈抖動其中I在任意值SD投擲= 0.1:

n <- 500 
set.seed(1) 
dat <- data.frame(integer = rep(1:3, each=n), continuous = c(rnorm(n, mean=1), rnorm(n, mean=2), rnorm(n, mean=3))^2) 

par(mfrow=c(3,1)) 
plot(dat, main="No jitter for x-axis", xlab="Integer", ylab="Continuous") 
plot(jitter(dat[,1]), dat[,2], main="Jittered x-axis (uniform distr.)", xlab="Integer", ylab="Continuous") 
plot(dat[,1]+rnorm(3*n, sd=0.1), dat[,2], main="Jittered x-axis (normal distr.)", xlab="Integer", ylab="Continuous") 

enter image description here

+0

謝謝,抖動不是一個不好的做法,因爲它抖動的結果,因爲抖動值現在不準確?我只是想知道爲什麼會想要抖動結果,因爲它們現在不再正確。 –

+2

我不會在統計建模中使用任何抖動,因爲它根據定義只是隨機的,不需要的噪聲。是的,「結果」是不準確的,但正如我所提到的,在一些可視化任務中,它實際上有助於解釋結果並且是合理的;你可以想象整數變量是一個有序因子,例如對照(= 1) - 輕度疾病(= 2) - 嚴重疾病(= 3)。假設您想要繪製與連續變量相關的散點圖,並且此處抖動有助於顯示y軸上的變化。它可以用來支持密度和箱形圖。 –

1

真正良好的抖動效應的解釋和爲什麼有必要可以在R中的迴歸模型的Swirl課程中找到。

它需要弗朗西斯·高爾頓爵士的數據,說明父母和他們孩子的身高之間的關係,並將其繪製在圖表上而沒有抖動,然後用抖動。

這是一個無抖動(圖(子〜父,高爾頓)):

enter image description here

這是一個帶有抖動(請忽略迴歸線)(圖(抖動(兒童, 4)〜父,高爾頓)):

enter image description here

課程說,如果你沒有抖動,很多人都會有相同的高度,所以點落在彼此頂部這就是爲什麼一些中的圈子第一個情節看起來比其他人要暗。但是,通過在兒童身高上使用R的功能「抖動」,我們可以分散數據來模擬測量誤差,並使高頻高度更加明顯。