隨着numpy的,你可以自己寫一些東西,或者你可以用GROUPBY功能(從matplotlib.mlab的rec_groupby功能,但它是慢得多。對於更強大的功能GROUPBY,也許看pandas),和我相比它邁克爾鄧恩與字典答案:
import numpy as np
import random
from matplotlib.mlab import rec_groupby
listA = [random.choice("abcdef") for i in range(20000)]
listB = [20 * random.random() for i in range(20000)]
names = np.array(listA)
values = np.array(listB)
def f_dict(listA, listB):
d = {}
for a, b in zip(listA, listB):
d.setdefault(a, []).append(b)
avg = []
for key in d:
avg.append(sum(d[key])/len(d[key]))
return d.keys(), avg
def f_numpy(names, values):
result_names = np.unique(names)
result_values = np.empty(result_names.shape)
for i, name in enumerate(result_names):
result_values[i] = np.mean(values[names == name])
return result_names, result_values
這三個結果:
In [2]: f_dict(listA, listB)
Out[2]:
(['a', 'c', 'b', 'e', 'd', 'f'],
[9.9003182717213765,
10.077784850173568,
9.8623915728699636,
9.9790599744319319,
9.8811096512807097,
10.118695410115953])
In [3]: f_numpy(names, values)
Out[3]:
(array(['a', 'b', 'c', 'd', 'e', 'f'],
dtype='|S1'),
array([ 9.90031827, 9.86239157, 10.07778485, 9.88110965,
9.97905997, 10.11869541]))
In [7]: rec_groupby(struct_array, ('names',), (('values', np.mean, 'resvalues'),))
Out[7]:
rec.array([('a', 9.900318271721376), ('b', 9.862391572869964),
('c', 10.077784850173568), ('d', 9.88110965128071),
('e', 9.979059974431932), ('f', 10.118695410115953)],
dtype=[('names', '|S1'), ('resvalues', '<f8')])
它似乎numpy的是一個有點快了這個測試(和預先定義groupby功能慢得多):
In [32]: %timeit f_dict(listA, listB)
10 loops, best of 3: 23 ms per loop
In [33]: %timeit f_numpy(names, values)
100 loops, best of 3: 9.78 ms per loop
In [8]: %timeit rec_groupby(struct_array, ('names',), (('values', np.mean, 'values'),))
1 loops, best of 3: 203 ms per loop
所以這聽起來像numpy是值得的:如果你的腳本這150次的字典解決方案會導致約2秒的延遲。 –
但有一句話,在計時中,我沒有把列表轉換爲numpy數組。這可能會補償numpy的小時間增益(我在上面的例子中測試過,然後f_numpy的速度幾乎相同:19.3 ms)。所以也許這取決於你是否必須每次將列表轉換爲numpy數組。 – joris
就我的測試而言,我沒有看到對轉換列表 - >數組產生巨大影響,但是我承認我沒有在兩個版本之間進行全面的比較。 – Einar