如何計算樣本

我有套整數列表（運行時間以秒計，所以一切都是大於零）的總和的變化，在每一組不同數量：如何計算樣本

e.g. 
test suite A: 12, 15, 16 
test suite B: 120, 130, 125, 90, 110 
test suite C: 3

我將一起運行測試套件A，B和C，並且我想要預測它需要多長時間。總結A，B，C套房的平均值給了我一個預期的運行時間，但沒有說明我能確定這個數字的確切程度。理想情況下，我想要一個方差（因此也是標準偏差）。

鑑於我想在任何此類計算中給每個套件「加權」，所以最合理的方法是什麼？我見過Adding/Combining Standard Deviations，這是相似的，但不同（他們沒有總結集合中的值，因爲我是）。

來源

2011-11-25 Jordan A.

這是一個真正意義上的純粹的統計問題。您的數據來自運行測試套件的事實並不重要。你可以看看Stats.SE。 – dmckee

如果您願意假設不同測試套件的運行時間之間存在獨立性，那麼您可以計算將A，B和C一起運行所需的時間差異作爲三。如果你不能獨立，你將需要一些他們依賴的方式。特別是，你需要三個成對的協方差。

完整的計算是

Var(A + B + C) = Var(A) + Var(B) + Var(C) + 2Cov(A,B) + 2Cov(B,C) + 2Cov(A,C)

當你假設隨機變量是獨立的，你

Cov(A,B) = Cov(B,C) = Cov(A,C) = 0.

來源

2011-11-25 20:53:52 David

這適用於3套房，但我的實際數據包括幾十套房，這似乎暗示（N選擇2）「協變條款」。如果我的運行時間與其他因素（測試計算機的速度）相關，這會改變所有套件的運行時間 - 以非統一的方式 - 我可以認爲它們是獨立的嗎？對不起，還有一點新的統計。 –

你說得對，n套房意味着（n選擇2）協方差項。而且，不幸的是，如果不同試驗時間的差異受到影響所有運行時間的因素（如測試計算機的速度）的影響，那麼獨立性假設可能無效。一種選擇是假定獨立性，看看你的數字有多準確。另一個是實際計算協方差。關於協方差的維基百科頁面給出了計算兩個變量的協方差的等式。 – David

好的，所以我必須計算每對套房的協方差。基於我在維基百科上讀到的內容，Cov（A，B）被定義爲A，B都是N的大小;如前所述，我的數據看起來完全不是這樣;在這種情況下有沒有辦法計算協方差？如果沒有，是否有一個合理的方法來近似？或者，是否還有其他一些「連貫性」措施可用於我的數據，以指示完整測試需要多長時間？ –

如何計算樣本

回答

相關問題