(熊貓0.16.1,2.7.8的Python 2.1.0蟒蛇(64位),英特爾至強3.07GHz,Win7的64位)蟒蛇大熊貓read_csv如何加快處理時間戳
我有一個CSV表報價數據。每天約40萬行。
sym time bid ask bsize asize
[email protected] 2014.05.07T08:10:02.407 1.3927 1.3928 28 29
[email protected] 2014.05.07T08:10:02.430 1.3927 1.3928 27 29
要與熊貓閱讀此成Python
pd.read_csv("quotes.csv", parse_dates = {'idx':[1]}, index_col = 'idx')
約需40秒。
任何想法,如果這可以做得更快?人們提出了Cython解決方案in this post,但我不知道Python/pandas解決方案是否存在?
順便說一句,這下面不解析日期,一個錯誤?
pd.read_csv("quotes.csv", parse_dates = [1])
我的速度慢了多少t與'parse_dates'?我不認爲cython真的會在這裏幫助(或者不值得努力,但我可能是錯的)。你也可以像文本一樣閱讀文本,然後轉換爲日期時間。 – JohnE
@JohnE這是40秒,parse_dates讀取400k行。以字符串形式讀取並稍後解析需要大致相同的時間 - 解析速度很慢。 – jf328