重採樣和熊貓填補丟失的數據

我有一個原始數據集，看起來像這樣：重採樣和熊貓填補丟失的數據

df = pd.DataFrame({'speed': [66.8,67,67.1,70,69], 
        'time': ['2017-08-09T05:41:30.168Z', '2017-08-09T05:41:31.136Z', '2017-08-09T05:41:31.386Z', '2017-08-09T05:41:31.103Z','2017-08-09T05:41:35.563Z' ]})

我可以做一些關於它的處理，使其看起來像（去除微秒）：

df['time']= pd.to_datetime(df.time) 
df['time'] = df['time'].apply(lambda x: x.replace(microsecond=0)) 

>>> df 
    speed    time 
0 66.8 2017-08-09 05:41:30 
1 67.0 2017-08-09 05:41:31 
2 67.1 2017-08-09 05:41:31 
3 70.0 2017-08-09 05:41:31 
4 69.0 2017-08-09 05:41:35

我現在需要重新採樣數據，以便到達相同時間戳的任何條目被平均在一起，對於沒有收到任何數據的時間戳，請使用最後一個可用值。像：

speed    time 
0 66.80 2017-08-09 05:41:30 
1 68.03 2017-08-09 05:41:31 
2 70.00 2017-08-09 05:41:32 
3 70.00 2017-08-09 05:41:33 
4 70.00 2017-08-09 05:41:34 
5 69.00 2017-08-09 05:41:35

我理解這可能涉及使用GROUPBY和重採樣，但作爲一個初學者，我發現自己有這些掙扎。關於如何進行的任何想法？

我都試過，但我得到錯誤的結果：

df.groupby([df["time"].dt.second]).mean() 
      speed 
time   
30 66.800000 
31 68.033333 
35 69.000000

來源

2017-08-09 Al P

In [279]: df.resample('1S', on='time').mean().ffill() 
Out[279]: 
         speed 
time 
2017-08-09 05:41:30 66.800000 
2017-08-09 05:41:31 68.033333 
2017-08-09 05:41:32 68.033333 
2017-08-09 05:41:33 68.033333 
2017-08-09 05:41:34 68.033333 
2017-08-09 05:41:35 69.000000

來源

2017-08-09 09:35:07 MaxU

我花了3小時，爲此而努力。不能相信它是如此簡單。謝謝！ –

@AlP，很高興我可以幫助:) – MaxU

重採樣和熊貓填補丟失的數據

回答

相關問題