2017-04-05 27 views
-1

我有一個巨大的文件的完整的時間序列數據的唯一列是時間 在整個數據集的唯一列時間列時間戳在地理位置如何使用機器學習大熊貓聚集IPython的筆記本

time 
2017-02-01 00:11:55 
2017-02-01 00:21:04 

這是100,000行,1列,這些是地理位置的時間戳,我試圖根據30分鐘的時間間隔聚合這些時間戳,然後將它們可視化,有沒有人可以告訴我如何做得最好這與機器學習的做法

如果我做data_file.dtypes對象返回

time object 

,如果我嘗試的重採樣我得到這個錯誤:類型錯誤:只有DatetimeIndex,TimedeltaIndex或PeriodIndex有效,但得到的「索引」

回答

0

實例你會更好地顯示你的完整數據(不僅是時間欄),無論如何,我會告訴你簡單的使用熊貓resample

import pandas as pd 

# Sample data 
df = pd.DataFrame(pd.date_range('2017-02-01 00:11:55', '2017-12-31 12:30:00', freq='7Min'), columns=["TS"]) 
df['Value'] = 1 

# Resample 
print(df.set_index('TS').resample('30Min').sum()) 

        Value 
TS       
2017-02-01 00:00:00  3 
2017-02-01 00:30:00  4 
2017-02-01 01:00:00  5 
2017-02-01 01:30:00  4 
2017-02-01 02:00:00  4 
2017-02-01 02:30:00  5 
... 
+0

類型錯誤:只適用於有DatetimeIndex,TimedeltaIndex或PeriodIndex,但得到的「索引」 – kwashington122

+0

的情況下,多數民衆贊成在錯誤我得到當我嘗試你的方法,我已經嘗試過重採樣不工作 – kwashington122

+0

確定那是因爲你的時間列只是一堆字符串,不像我的樣本數據不是日期時間。嘗試先用'df ['time'] = pd.to_datetime(df ['time'])'進行轉換。 – su79eu7k