2017-08-30 43 views
2

我想估計所需的樣本大小,以便使用Python計算離散數據的Chi Squared(均勻性測試)測試,並且需要提示如何執行此操作。估計Chi Squared測試所需的樣本大小

一般來說,我想估計兩個生產過程的失敗率是否顯着不同(α= 5%)。

我只發現statsmodels.stats.gof.chisquare_effectsize()功能,但這似乎只適用於良好的配合測試。

有什麼辦法可以確定所需的樣本量嗎?

我很感謝每一個答案。

回答

2

您可以使用statsmodels.stats.GofChisquarePower()。solve_power() 但是,您需要調整自由度(df)以說明變量的數量。您可以使用n_bins參數完成此操作。

>>>import statsmodels.stats.power as smp 
>>>n_levels_variable_a = 2 
>>>n_levels_variable_b = 3 
>>>smp.GofChisquarePower().solve_power(0.346, power=.8, n_bins=(n_levels_variable_a-1)*(n_levels_variable_b-1), alpha=0.05) 

115.94688728433769

+0

我能得到它的權利是:1。n_bins是我想比較的組數?在我的情況n_bins = 2,因爲我有兩條生產線。 2.效應大小描述了兩條生產線的平均值之間的差異。因此它是一種置信區間,這個值越低,樣本量就越大。 – 2Obe

+0

@ 2Obe我的錯誤,我看到我誤解了你的帖子,並認爲你正在尋找_independence_的測試。 – BirdLaw

+0

對於同質性,數學是相同的,但自由度(在這種情況下n_bins)應該是(number_of_rows -1)*(number_of_columns-1)其中number_of_rows(和columns)是列聯表中的行數和列數。 (例如,如果你有兩個變量,'性別'和'政治派別'),你可能會有(2-1)*(2-1) – BirdLaw