對數據進行分類，計算每個類別的平均值和標準差

我正在編寫一個代碼來對數據進行分類，並獲得平均值和標準偏差。這裏是我的數據的例子。對數據進行分類，計算每個類別的平均值和標準差

3917 1 -0.662261 25.148 22.9354 68.8076 
3918 1 12.7649 18.7451 7.68473 69.0063 
3919 1 -9.56836 -23.3265 -61.953 68.8357 
3920 1 11.6292 31.6525 -29.3697 69.1372 
3921 2 26.4837 -66.7897 12.0257 69.2282 
3922 1 -9.81652 14.3788 9.38343 69.1217 
3923 2 39.931 -88.1879 109.498 69.1604 
3924 1 4.5502 3.53887 -6.59604 69.486 
3925 2 13.6801 -24.6628 -5.7568 69.9398 
3926 1 -10.5635 7.05517 -8.82785 70.2263

正如你所看到的，有6列。我正在考慮三步計算。

根據第6列對這些數字進行分類。第6列由0〜n的浮點數組成。我希望生成n個部分（或子矩陣，或其他），如0〜1，1〜2，2〜3 .... n-1〜n。最後一個數字應該是最後一個數據的數字，因爲我希望能夠創建部分。例如，如果最後一個數字是121.2513，最後一部分應該是120〜121以包含該數據。
將列1〜5的所有其他數字重新分配給基於第6列的相應子部分。如果在特定部分中沒有編號，則將其打印爲0.將會有n個小節。每個小節中的元素數量將是隨機的。
得到每個子段的第3，第4和第5列的平均值和標準偏差，並將輸入文件寫入輸入文件中，第'小節中的元素數，小節的開始數以及第3小節的平均值和標準差，第4列和第5列'

我正在嘗試使用多個for循環，但它變得太複雜，並且會出錯。有沒有其他簡單的方法來分類數據，與每個子部分一起玩，並用Python打印出來？另外，我的for循環根本不起作用。任何簡單的示例建議使用這些數據？

來源

2013-08-27 exsonic01

請編輯您的文章以包括您的* for循環根本不工作* ...部分 –

您是否在使用[numpy]（http://www.numpy.org）？如果不是，你有沒有理由不能？它使得這種代碼變得簡單很多（與scipy和/或pandas一起），並避免了所有顯式循環，使得你無法正確使用。 – abarnert

你可以發佈你迄今爲止寫的代碼嗎？ – scohe001

這個任務適合熊貓圖書館。（http://pandas.pydata.org/）根據我對你的帖子的理解，你想要計算列方法和標準偏差。要計算行方向統計量，請將參數axis=1添加到平均值和std函數中。在下面的代碼，示例性已被保存到「tmp.txt」的第一個步驟將其加載;然後它是簡單在數據幀，以計算統計

import pandas as pd 
df =pd.read_csv('tmp.txt',sep=' ',header=None) 
means = df.mean() 
stds = df.std()

有關大熊貓的更多信息，取看快速介紹：http://pandas.pydata.org/pandas-docs/stable/10min.html

來源

2013-08-27 21:58:20 user1470788

我可以詢問'分類'部分嗎？如何使用numpy或pandas對基於第6列值的所有數據進行分類？ – exsonic01

我不確定你的意思，但你可以執行各種選擇和分組操作。例如，假設您只想計算第6列（列名稱5）> = 69中具有值的行的標準偏差。這只是：'df [df [5]> = 69] .std（）'對於列中的分類值，也可以使用'groupby（）'運算符。看看'10分鐘到熊貓'的鏈接 - 它提供了更多細節。 – user1470788

我假設你有一個列表列表中的矩陣，並告訴你如何開始（但是，正如我在評論中提到的，如果你有你的矩陣在一個numpy array或matrix，這一切都會更容易 - 也更快。）

如果你只是有一個值作爲一個大的多行字符串，你可以將其轉換成類似這樣的浮點值列表的列表：

m = [[float(col) for col in line.split()] for line in s.splitlines()]

現在，通過「分類基於這些數字在第6列「，這聽起來是你想要的是按照該列的整數值對它們進行分組。

Python自帶一個groupby函數，它可以完成您想要的大部分功能，但您必須先對數據進行排序。

在Python中，排序和分組以及相關函數總是讓您傳遞一個關鍵函數。您不必對第6列進行排序和分組，您可以使用第6列作爲關鍵字對整行進行排序和分組。

但實際上，你不想使用第6列的值作爲關鍵字，你想使用整數值的第6列。對於前者，你會使用自帶的STDLIB的itemgetter功能，但這樣做更復雜的東西，你最好寫它的函數：

def keyfunc(row): 
    return int(row[5]) 
groups = groupby(sorted(data, key=keyfunc), key=keyfunc)

（如果你反覆這樣做，你可能希望編寫一個包裝函數，用相同的密鑰對組進行排序，所以你不必重複自己，並且弄錯了它。）

這是什麼給你的是一個帶有迭代器的迭代器，它有點難打印出來：

[(k, list(g)) for k, g in groups]

但你得到的是：

[(68, 
    [[3917.0, 1.0, -0.662261, 25.148, 22.9354, 68.8076], 
    [3919.0, 1.0, -9.56836, -23.3265, -61.953, 68.8357]]), 
(69, 
    [[3918.0, 1.0, 12.7649, 18.7451, 7.68473, 69.0063], 
    [3920.0, 1.0, 11.6292, 31.6525, -29.3697, 69.1372], 
    [3921.0, 2.0, 26.4837, -66.7897, 12.0257, 69.2282], 
    [3922.0, 1.0, -9.81652, 14.3788, 9.38343, 69.1217], 
    [3923.0, 2.0, 39.931, -88.1879, 109.498, 69.1604], 
    [3924.0, 1.0, 4.5502, 3.53887, -6.59604, 69.486], 
    [3925.0, 2.0, 13.6801, -24.6628, -5.7568, 69.9398]]), 
(70, [[3926.0, 1.0, -10.5635, 7.05517, -8.82785, 70.2263]])]

所以，每個k是整數的類別進行分組，並且每個g是所有該類別中的行（排序順序）。

（需要注意的是，因爲groups是一個迭代器，如果你print此，groups現在是空的。）

這需要你的第一個問題的關心，我想大多數你的第二個的（我不確定你到底想要什麼）。

對於第三個，你首先需要遍歷組：

for k, g in groups:

如果你多次去遍歷組，要立即它的列表，然後遍歷該清單。

對於每個組，您想對一些列進行統計。最簡單的方法就是使用一個模塊來處理所有的數學問題。 PyPI上的stats模塊是一個不錯的選擇，特別是現在（稍有變化），它可能最終會在即將到來的Python版本的標準庫中出現。

但我只是顯示平均值，因爲這是微不足道的。

所以：

def mean(sequence): 
    return sum(sequence)/len(sequence) 

for k, g in groups: 
    rows = list(g) 
    print(k) 
    for column_index in 2, 3, 4: 
     column = [row[column_index] for row in rows] 
     print(mean(column))

很可能有很多，這個代碼不這樣做，你所需要的，但我希望它足以讓你開始，當你遇到問題要問更具體的問題。

來源

2013-08-27 22:00:17 abarnert

正如其他人所說，你可能想看看numpy或pandas，特別是如果你的數據集很大。但是，在純Python中以及正確的數據結構也很容易實現。在這種情況下，我只需使用defaultdict作爲部分，關鍵是將第六列向下舍入，映射到列表元組（或更復雜的數據結構），然後您可以在其中收集列值：

from collections import defaultdict 
sections = defaultdict(lambda: ([], [], [], [], [])) 

with open("mydata.txt") as f: 
    #parse all non-empty lines into a list of lists of floats 
    lines = [x.strip() for x in f.read().split("\n")] 
    data = [map(float, x.split(" ")) for x in lines if x] 

for row in data: 
    #get the corresponding section (and create it if it doesn't exist) 
    section = sections[int(row[5])] 
    for x in range(5): 
     #append the column values to the respective lists 
     section[x].append(row[x])

現在sections包含易於使用的格式的數據;簡單地遍歷它，並計算您感興趣的各行的平均值和標準偏差：

for s, columns in sections.items(): 
    #assuming "mean" is a function that calculates the average of a list 
    print "mean of section [%i,%i) column 3 is %f" % (s, s+1, mean(columns[2]))

此擴展到多個/不同的列和函數應該是微不足道的。

來源

2013-08-27 22:00:43 l4mpi

謝謝，但我需要在150多個小節中對數據進行分類。明確地寫所有範圍的類別將是太長，而不是'pythonic'的方式... – exsonic01

@ user1798797「明確地寫所有範圍的類別」 - 不知道你在說什麼，我不知道你理解解。像打印每個部分的列的平均值可以用大約三行代碼來完成，所以我不認爲它「太長」...給我一點時間，我會爲此寫一些示例代碼。 – l4mpi

對數據進行分類，計算每個類別的平均值和標準差

回答

相關問題