2017-01-05 60 views
1

如何在Numpy中對兩個或多個屬性上的對象數組進行高效排序?numpy中排序對象的數組?

class Obj(): 
    def __init__(self,a,b): 
     self.a = a 
     self.b = b 

arr = np.array([],dtype=Obj)   

for i in range(10): 
    arr = np.append(arr,Obj(i, 10-i)) 

arr_sort = np.sort(arr, order=a,b) ??? 

THX,威廉揚

+0

numpy是否支持數據類型的類:'np.array([],dtype = Obj)'? –

+0

我會使用列表而不是對象數組。列表追加速度更快。列表排序允許排序關鍵參數。 – hpaulj

+0

也許你正在尋找[結構化數組](https://docs.scipy.org/doc/numpy/user/basics.rec.html)。儘管它們不直接與Python類一起工作。 – user7138814

回答

0

order參數僅適用於結構化的陣列:

In [383]: arr=np.zeros((10,),dtype='i,i') 
In [385]: for i in range(10): 
    ...:  arr[i] = (i,10-i) 
In [386]: arr 
Out[386]: 
array([(0, 10), (1, 9), (2, 8), (3, 7), (4, 6), (5, 5), (6, 4), (7, 3), (8, 2), (9, 1)], 
     dtype=[('f0', '<i4'), ('f1', '<i4')]) 
In [387]: np.sort(arr, order=['f0','f1']) 
Out[387]: 
array([(0, 10), (1, 9), (2, 8), (3, 7), (4, 6), (5, 5), (6, 4), (7, 3), (8, 2), (9, 1)], 
     dtype=[('f0', '<i4'), ('f1', '<i4')]) 
In [388]: np.sort(arr, order=['f1','f0']) 
Out[388]: 
array([(9, 1), (8, 2), (7, 3), (6, 4), (5, 5), (4, 6), (3, 7), (2, 8), 
     (1, 9), (0, 10)], 
     dtype=[('f0', '<i4'), ('f1', '<i4')]) 

隨着2D陣列,lexsort提供了類似的 '有序' 排序

In [402]: arr=np.column_stack((np.arange(10),10-np.arange(10))) 
In [403]: np.lexsort((arr[:,1],arr[:,0])) 
Out[403]: array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9], dtype=int32) 
In [404]: np.lexsort((arr[:,0],arr[:,1])) 
Out[404]: array([9, 8, 7, 6, 5, 4, 3, 2, 1, 0], dtype=int32) 

用你的對象數組,我可以提取att ributes到這兩種結構:

In [407]: np.array([(a.a, a.b) for a in arr]) 
Out[407]: 
array([[ 0, 10], 
     [ 1, 9], 
     [ 2, 8], 
     .... 
     [ 7, 3], 
     [ 8, 2], 
     [ 9, 1]]) 
In [408]: np.array([(a.a, a.b) for a in arr],dtype='i,i') 
Out[408]: 
array([(0, 10), (1, 9), (2, 8), (3, 7), (4, 6), (5, 5), (6, 4), (7, 3), 
     (8, 2), (9, 1)], 
     dtype=[('f0', '<i4'), ('f1', '<i4')]) 

Python的sorted功能將在arr(或其列表等效)工作

In [421]: arr 
Out[421]: 
array([<__main__.Obj object at 0xb0f2d24c>, 
     <__main__.Obj object at 0xb0f2dc0c>, 
     .... 
     <__main__.Obj object at 0xb0f35ecc>], dtype=object) 
In [422]: sorted(arr, key=lambda a: (a.b,a.a)) 
Out[422]: 
[<__main__.Obj at 0xb0f35ecc>, 
<__main__.Obj at 0xb0f3570c>, 
... 
<__main__.Obj at 0xb0f2dc0c>, 
<__main__.Obj at 0xb0f2d24c>] 

Obj類缺少好的__str__方法。我必須使用類似[(i.a, i.b) for i in arr]的東西來查看arr元素的值。

正如我在評論中所述,對於這個例子,列表比對象數組好。

In [423]: alist=[] 
In [424]: for i in range(10): 
    ...:  alist.append(Obj(i,10-i)) 

list append比重複數組追加更快。與列表相比,對象數組不會增加很多功能,特別是在1d時,而對象是像這樣的自定義類。你不能在arr上做任何數學運算,正如你所看到的,排序並不是那麼容易。