我正在讀取多個時間序列的電子表格到一個熊貓數據框中,並將它們與一個普通的熊貓日期時間索引連接在一起。記錄時間序列的數據記錄器不是100%準確的,這使得重採樣非常煩人,因爲根據時間稍微高於還是低於採樣間隔,它將創建NaN並開始使我的系列看起來像一條虛線。這裏是我的代碼圓熊貓日期時間索引?
def loaddata(filepaths):
t1 = time.clock()
for i in range(len(filepaths)):
xl = pd.ExcelFile(filepaths[i])
df = xl.parse(xl.sheet_names[0], header=0, index_col=2, skiprows=[0,2,3,4], parse_dates=True)
df = df.dropna(axis=1, how='all')
df = df.drop(['Decimal Year Day', 'Decimal Year Day.1', 'RECORD'], axis=1)
if i == 0:
dfs = df
else:
dfs = concat([dfs, df], axis=1)
t2 = time.clock()
print "Files loaded into dataframe in %s seconds" %(t2-t1)
files = ["London Lysimeters corrected 5min.xlsx", "London Water Balance 5min.xlsx"]
data = loaddata(files)
這裏的指數的一個想法:
data.index
類的pandas.tseries.index.DatetimeIndex'> [2012年8月27日12: 05:00.000002,......,2013年7月12日15:10:00.000004] 長度:91910,頻率:無,時區:無
什麼是最快和最一般將指數四捨五入到最接近的分鐘?
作品完美,速度非常快!我不知道你可以用這種方式處理datetimeindex – pbreach
你實際上*有*處理它們的方式(這個''index''大部分隱藏) – Jeff
這也可能是一個很好的補充索引代碼,你可以按照這個問題:https://github.com/pydata/pandas/issues/4314 – Jeff