0
我有一個可能包含重複的數據集。爲了找到數據集中,我把指數爲numpy的結構陣列的複製,排序的陣列,從唯一值創建另一個數組,然後比較兩個數組的長度:查找兩個numpy結構陣列之間的區別
data = np.zeros(t_len, dtype={'names':['date', 'symbol'], 'formats':['i8', 'S16']})
data[:] = [(x['date'], x['symbol']) for x in tbl.iterrows()]
data.sort(order=['date', 'symbol'])
data2 = np.unique(data)
duplicates = False
if len(data) != len(data2):
duplicates = True
print "There are duplicates"
if not duplicates:
print "No duplicates found"
現在,我真的很想確定包含重複項的索引。舉例來說,如果我有一個包含數據集:
array([12322323,'IBM'], [12322323,'IBM'], [12322323,'MSFT'], [12322323,'IBM'])
我想知道看到陣列陣列([12322323,「IBM」])
我已經研究過使用獨特的,差異功能,但這些似乎並沒有完成這項工作。
對於結構化陣列,使用該方法在第一場得到一個新的結構數組,然後檢查等領域遞歸。 –
很簡單!謝謝。 –
其實在np.unique中似乎有一個return_counts參數,所以不需要計數... – ntg