2013-07-01 105 views
10

一個可能很簡單的問題 我試圖製作一個錯誤圖,如Field的「使用R發現統計信息」的頁面532所示。在ggplot2上解釋「stat_summary = mean_cl_boot」?

的代碼可以在這裏http://www.sagepub.com/dsur/study/DSUR%20R%20Script%20Files/Chapter%2012%20DSUR%20GLM3.R發現:

line <- ggplot(gogglesData, aes(alcohol, attractiveness, colour = gender)) 
line + stat_summary(fun.y = mean, geom = "point") + 
stat_summary(fun.y = mean, geom = "line", aes(group= gender)) + 
stat_summary(fun.data = mean_cl_boot, geom = "errorbar", width = 0.2) + 
labs(x = "Alcohol Consumption", y = "Mean Attractiveness of Date (%)", colour = "Gender") 

我公司生產的相同的曲線圖。我的y軸變量只有4個點(它是一個離散的比例,1-4),現在y軸的點數爲1.5,2,2.5,其中線條變化。

問題是:這些點和圖形描述了什麼? 我認爲重要的部分是stat_summary(fun.data = mean_cl_boot, geom = "errorbar", width = 0.2)是他們對該組和那個水平(x軸)的觀測數量?他們是頻率?或者,他們是比例?

,我發現這個http://docs.ggplot2.org/0.9.3/stat_summary.html但它並沒有幫助我

謝謝

回答

11

這裏是83頁的GGPLOT2 book說,大約mean_cl_boot()

Function   Hmisc original  Middle Range 
mean_cl_boot() smean.cl.boot() Mean Standard error from bootstrap 

我認爲這是smean.cl.boot()來自Hmisc包,但在ggplot2中更名爲mean.cl.boot()

here是原有功能從Hmisc包的定義:

smean.cl.boot是獲得置信限人口意味着一個非常快速實現基本的非參數自舉而不承擔常態

1

我轉載圖使用你的代碼,我得到了基本上與Field的書中發現的圖形相同的圖形,發現統計量使用R,圖12.12,第532頁,除了x軸上變量的排序。 y軸顯示連續變量,日期平均吸引力(%)。正如你指出的那樣,95%置信區間是由stat_summary()函數和mean_cl_boot參數創建的,它們是使用Hmisc中的smean.cl.boot()函數的引導置信區間,正如上面的另一位評論者所指出的那樣。該功能在Hmisc documentation的第262頁有描述。 ggplot2 documentation on mean_cl_boot很稀疏,並遵循Hmisc軟件包中的說明。

請注意,ggplot2中mean_cl_boot的參數與Hmisc包中的smean.cl.boot函數的參數相同。您可以通過使用conf.int參數和使用B參數的引導程序樣本數,從默認值.95更改所需的置信度。例如,這裏是創建具有99%置信區間和5000個自舉樣本的相同繪圖的代碼:

line <- ggplot(gogglesData, aes(alcohol, attractiveness, colour = gender)) 
line + stat_summary(fun.y = mean, geom = "point") + 
stat_summary(fun.y = mean, geom = "line", aes(group= gender)) + 
stat_summary(fun.data = mean_cl_boot, conf.int = .99, B = 5000, geom = "errorbar", width = 0.2) + 
labs(x = "Alcohol Consumption", y = "Mean Attractiveness of Date (%)", colour = "Gender")