我已經索引我的數據幀到日期列。現在我想設置索引to_datetime。我的代碼如下:麻煩設置索引值date.time熊貓
import numpy as np
import pandas as pd
import glob
df = pd.concat((pd.read_csv(f, sep='|', header=None, index_col=None, low_memory=False) for f in glob.glob('/home/jayaramdas/anaconda3/Thesis/FEC_data/itpas2_data/itpas2**.txt')))
df.columns = ['1', '2', '3', '4', '5', '6', '7', '8', '9', '10', '11', '12', '13', 'date', '15', '16', '17', '18', '19', '20', '21', '22']
df.set_index(pd.to_datetime(df['date']), inplace=True)
df1 = df[['1', '6', '7', '10', '12', '13', '15', '16', '17']].copy()
df1.columns = ['cmte_id', 'trans_typ', 'entity_typ', 'state', 'employer', 'occupation', 'amount', 'fec_id', 'cand_id']
Print (df1)
但我的輸出看起來像它正在追加一個新的日期列。
cmte_id trans_typ entity_typ state employer \
date
1970-01-01 00:00:00.008152007 C00112250 24K ORG DC NaN
1970-01-01 00:00:00.009262007 C00119040 24K CCM FL NaN
1970-01-01 00:00:00.009262007 C00119040 24K CCM MD NaN
1970-01-01 00:00:00.00
我的原始日期列是日期索引中的最後8位數字。此外,從read.csv文件中的前幾行如下(第一行中的日期值是08152007):
C00112250|N|Q3|G|27931381854|24K|ORG|HILLARY CLINTON FOR PRESIDENT EXP. COMM.|WASHINGTON|DC|20013|||08152007|2000|C00431569|P00003392|71006.E7975|307490|||4101720071081637544
它看起來像你的'date'值實際上大紀元,你可以試試這個:'df.set_index(pd.to_datetime(DF [ '日期'],單位=的'),inplace = True)' – EdChum
我剛剛應用了你的代碼:現在,我在日期列中獲得這個:1970-04-05 08:26:47 –
發佈原始數據,就像我之前詢問過的這個問題避免了含糊 – EdChum