2013-10-28 17 views
-1

我有一個xlsx文件上的一些數據,我已經成功地將它放在一個頻率表上,並且使用Sturges正確配置了斷點。直方圖不能正確地創建斷點

number_observations = length(data) 
classes = factor(cut(data, breaks=nclass.Sturges(data))) 
tabulation = as.data.frame(table(classes)) 
tabulation = transform(tabulacion, cumFreq = cumsum(Freq), relative = prop.table(Freq), cumRelative = cumsum(prop.table(Freq))) 

% Tabulation display 
    clases  Freq cumFreq relative cumRelative 
1 (195,262] xxx xxxx  x.xxxxxxx x.xxxxxxx 
2 (262,329] yyy yyyy  y.yyyyyyy y.yyyyyyy 
3 (329,396] zzz zzzz  z.zzzzzzz z.zzzzzzz 

現在,我需要做同樣的斷點直方圖,但問題是,直方圖產生不正確地作出斷點,這意味着,第一,數據的maximun和minimun正在呈現不正確,第二,直方圖比頻率表有更多的類。對於這個問題,我預計直方圖有12個類,但對於我來說不明原因,它會產生更多。

任何建議,和/或想法我做錯了什麼?

+0

您可以指定要作爲'breaks'參數的一部分來'hist'具體斷點: 'HIST(班,休息= C(262,329,...))' –

+1

沒有數據和導入xpsx文件的方法,我們只能進行推測。 –

回答

0

因爲我沒有把注意力放在這個問題上,所以我找到了一個解決方案,部分基於這個問題:How can 'arrange' command be used to generate a set of bins for histogram plot in R,假設我的數據在數字向量中。

問題實際上是「如何正確設置直方圖的bin」,因爲直方圖的bin將代表每一個類,所以我使用最小值和最大值的數據,並且類別的範圍

bins = seq(min(data), max(data), by=range) 

然後給出箱數作爲直方圖中斷的參數。

hist(data, freq=TRUE, breaks=bins)