這是我第一次嘗試熊貓。我認爲我有一個合理的使用案例,但我磕磕絆絆。我想將製表符分隔的文件加載到熊貓數據框中,然後按照符號對它進行分組,並使用時間戳列索引的x.axis對其進行繪圖。這裏是數據的一個子集:熊貓DataFrame - 所需的索引有重複值
Symbol,Price,M1,M2,Volume,TimeStamp
TBET,2.19,3,8.05,1124179,9:59:14 AM
FUEL,3.949,9,1.15,109674,9:59:11 AM
SUNH,4.37,6,0.09,24394,9:59:09 AM
FUEL,3.9099,8,1.11,105265,9:59:09 AM
TBET,2.18,2,8.03,1121629,9:59:05 AM
ORBC,3.4,2,0.22,10509,9:59:02 AM
FUEL,3.8599,7,1.07,102116,9:58:47 AM
FUEL,3.8544,6,1.05,100116,9:58:40 AM
GBR,3.83,4,0.46,64251,9:58:24 AM
GBR,3.8,3,0.45,63211,9:58:20 AM
XRA,3.6167,3,0.12,42310,9:58:08 AM
GBR,3.75,2,0.34,47521,9:57:52 AM
MPET,1.42,3,0.26,44600,9:57:52 AM
注意關於TimeStamp列的兩件事情;
- 它具有重複值和
- 的間隔是不規則的。
我想我可以做這樣的事情......
from pandas import *
import pylab as plt
df = read_csv('data.txt',index_col=5)
df.sort(ascending=False)
df.plot()
plt.show()
但read_csv方法拋出一個異常「試圖列1-X作爲指標,但發現重複」。有沒有一個選項可以讓我指定一個具有重複值的索引列?
我也有興趣將不規則的時間戳間隔調整爲一秒鐘的分辨率,我仍然希望爲給定的秒鐘繪製多個事件,但也許我可以引入一個唯一的索引,然後將我的價格與它對齊?
謝謝。我會加入pystats模型 - 如果你正在尋找用例的絆腳石,我可能會變得肥沃。 – kavu 2012-03-04 22:01:08
如果按原始時間,你的意思可能是一個採樣率的整數,這裏是一個upvote。科學錄音的整個世界都渴望延長TimeSeries的方向...... – meteore 2012-10-19 09:05:28