的不足索引我有一個大熊貓DataFrame
在result
變量,並且希望通過對id
期從它提取一些行,具體而言,它們組並選擇的行,對應於最小score
秒。大熊貓陣列
下面是代碼:
gb = result.groupby(['id1', 'id2'], sort=False, group_keys=False, as_index=False)
result1 = result.loc[gb['score'].idxmin()].dropna()
我已經停止了代碼在調試器中檢查結果的正確性。結果很奇怪。
>>> gb['score'].idxmin().shape
Out[11]: (1800L,)
>>> result1.shape
Out[12]: (1810, 6)
這10行來自哪裏?
更多的,我已經在Jupyter筆記本上以相同的數據文件交互地運行完全相同的代碼,並且有1800行。
我使用的是所有更新的Anaconda。以下是版本字符串
Python 2.7.11 |Anaconda 4.0.0 (64-bit)| (default, Feb 16 2016, 09:58:36) [MSC v.1500 64 bit (AMD64)]
確實,問題出在非唯一索引。數據幀'result'是從'pd.concat([df1,df2])''獲得的。添加'ingore_index = True'已經解決了這個問題。 Jupyter單元格確實包含「ignore_index = True」。 – wl2776