2011-11-25 87 views
0

我有套整數列表(運行時間以秒計,所以一切都是大於零)的總和的變化,在每一組不同數量:如何計算樣本

e.g. 
test suite A: 12, 15, 16 
test suite B: 120, 130, 125, 90, 110 
test suite C: 3 

我將一起運行測試套件A,B和C,並且我想要預測它需要多長時間。總結A,B,C套房的平均值給了我一個預期的運行時間,但沒有說明我能確定這個數字的確切程度。理想情況下,我想要一個方差(因此也是標準偏差)。

鑑於我想在任何此類計算中給每個套件「加權」,所以最合理的方法是什麼?我見過Adding/Combining Standard Deviations,這是相似的,但不同(他們沒有總結集合中的值,因爲我是)。

+0

這是一個真正意義上的純粹的統計問題。您的數據來自運行測試套件的事實並不重要。你可以看看Stats.SE。 – dmckee

回答

1

如果您願意假設不同測試套件的運行時間之間存在獨立性,那麼您可以計算將A,B和C一起運行所需的時間差異作爲三。如果你不能獨立,你將需要一些他們依賴的方式。特別是,你需要三個成對的協方差。

完整的計算是

Var(A + B + C) = Var(A) + Var(B) + Var(C) + 2Cov(A,B) + 2Cov(B,C) + 2Cov(A,C) 

當你假設隨機變量是獨立的,你

Cov(A,B) = Cov(B,C) = Cov(A,C) = 0. 
+0

這適用於3套房,但我的實際數據包括幾十套房,這似乎暗示(N選擇2)「協變條款」。如果我的運行時間與其他因素(測試計算機的速度)相關,這會改變所有套件的運行時間 - 以非統一的方式 - 我可以認爲它們是獨立的嗎?對不起,還有一點新的統計。 –

+0

你說得對,n套房意味着(n選擇2)協方差項。而且,不幸的是,如果不同試驗時間的差異受到影響所有運行時間的因素(如測試計算機的速度)的影響,那麼獨立性假設可能無效。 一種選擇是假定獨立性,看看你的數字有多準確。另一個是實際計算協方差。關於協方差的維基百科頁面給出了計算兩個變量的協方差的等式。 – David

+0

好的,所以我必須計算每對套房的協方差。基於我在維基百科上讀到的內容,Cov(A,B)被定義爲A,B都是N的大小;如前所述,我的數據看起來完全不是這樣;在這種情況下有沒有辦法計算協方差?如果沒有,是否有一個合理的方法來近似?或者,是否還有其他一些「連貫性」措施可用於我的數據,以指示完整測試需要多長時間? –