2017-08-12 1077 views
-2

我有一個數據集。它是生物材料。我已經輸入了標準偏差,我可以看到我的所有數據欄2個數據點都在平均值的3sd內。 接受均值3sd內的數據點是否在正常變化範圍內? 還是依賴於數據的範圍和分散?我不是數學家。只是有人試圖弄清楚我是否有一個控制流程。我一直認爲3sd代表95%的數據,因此這裏的數據是正常分佈的,不值得研究。不過,我經常被要求根據圖表的外觀調查2sd內的數據。 example chart3個平均值的標準偏差

使用標準偏差時,應該在什麼時候調查數據爲異常?

提前許多感謝所有幫助

+0

95%爲2個標準偏差; 3sd是99.7%。也許清除這種困惑已經回答了你的問題,我不確定。 – meowgoesthedog

+0

離羣值可能很少,但這並不意味着你應該解僱他們。 – duffymo

+1

這是一個編程問題? –

回答

1

你應該看看68–95–99.7 rule

如果您的數據服從正態分佈,那麼您的數據的95%(95.45%)將落在平均值的兩個標準偏差範圍內,其中。如果數據遵循另一個分佈,則可以通過Chebyshev's inequality說,至少有75%的數據必然落在兩個標準偏差之內。假設正態分佈,約99.7%(99.73%)的數據將落入平均值的三個標準偏差之內。如果不是正態分佈,至少89%(88.8888%)會落在那裏。

請注意,即使您的數據遵循正態分佈,機會(抽樣誤差)也會使得這些百分比並非完全如此。

所以這些數字的確取決於您的數據,特別是數據的分佈類型和數據點的數量。如果你有1000個數據點,你仍然會在3個標準偏差之外得到3個點。

+0

我已閱讀你的鏈接。我的理解是,如果我的數據集遵循正態分佈(我相信我看到的材料將會),那麼預計我的99.7%的數據應該在3SDs內。隨着樣本數量/錯誤的0.3%將發揮更多的一部分,我應該期望找到離羣值。我們使用ST DEV來監控流程步驟或操作中的轉變,我所理解的是,如果轉移在3SD範圍內,我不必過度擔心,特別是如果它回落。 – Creaven

+0

+ 1用於仔細區分正態分佈和其他分佈(特別是與切比雪夫不等式的關係)。每當我讀到'3西格瑪規則'時,我可以解釋爲適用於每個分配。 –

相關問題