2
我試圖使用熊貓基於表示時間(秒)的列中的差異來消除數據框中的一些近似重複。例如:熊貓根據差異列形成集羣
import pandas as pd, numpy as np
df=pd.DataFrame([1200,1201,1233,1555,1650,5561,5562],columns=['Time'])
df['Dif']=df.Time.diff()
df['Coef']=np.random.rand(len(df))
所以我需要做的是檢查每一個有2秒內每次其他的區域內發生的時間值組中,選擇一個與Coef中的最高值,並丟棄休息。因此,在這個例子中,我會以某種方式將索引0和1組合在一起,並丟棄索引0(因爲df.Coef [0] < df.Coef 1)。
同樣,索引5,6和7將被分組到其他地方,並且所有索引都被丟棄。因此所需的輸出將是df.drop([0,5,7]):
我現在有一個蟒while循環的算法來做到這一點,但是該數據幀可包含數百萬indicies,因此它太慢了。任何純大熊貓的解決方案,將不勝感激
偉大的解決方案!我還沒有用過groupby,所以我很欣賞這個例子來幫助我學習它。 – derchambers 2014-09-18 23:37:30