我有一個大小矩陣(61964,25)。下面是一個示例:如何計算一個數字與平均值有多少個標準偏差?
array([[ 1., 0., 0., 4., 0., 1., 0., 0., 0., 0., 3.,
0., 2., 1., 0., 0., 3., 0., 3., 0., 14., 0.,
2., 0., 4.],
[ 0., 0., 0., 1., 2., 0., 0., 0., 0., 0., 1.,
0., 2., 0., 0., 0., 0., 0., 0., 0., 5., 0.,
0., 0., 1.]])
Scikit學習提供了提供了一個有用的功能,我們的數據是正態分佈:
from sklearn import preprocessing
X_2 = preprocessing.scale(X[:, :3])
我的問題,然而,就是我有一個行的基礎上工作 - 它不僅包含25個觀察值 - 所以正態分佈不適用於此。解決方案是使用t分佈,但我怎麼能在Python中做到這一點?
通常情況下,值從0到20,例如20。當我看到異常高的數字時,我會過濾掉整行。下面的柱狀圖顯示我的實際分佈是什麼樣子:
的Python 3.4有一個新的模塊[統計] [1],這將達到目的爲你: [1 ]:https://docs.python.org/3/library/statistics.html – 2015-02-09 12:01:05