我正在使用python(專門用於分析數據集)(pandas
)。 (Python太棒了,開源的力量是驚人的)。我遇到了我的數據集的特定部分的問題。如何將重複時間戳與大熊貓聚合?
我有以下的數據集,
time,contract,ticker,expiry,strike,quote,price,volume
08:01:08,C,PXA,20100101,4000,A,57.8,60
08:01:11,C,PXA,20100101,4000,A,58.4,60
08:01:12,C,PXA,20100101,4000,A,58,60
08:01:16,C,PXA,20100101,4000,A,58.4,60
08:01:16,C,PXA,20100101,4000,A,58,60
08:01:21,C,PXA,20100101,4000,A,58.4,60
08:01:21,C,PXA,20100101,4000,A,58,60
,並繼續...
我使用熊貓加載數據。在此之後,我希望能夠做到以下幾點,取得重複時間的音量加權平均值。
即因爲在時間08:01:16有兩個要求,所以我想計算基於體積的平均價格(58.4 * 60 + 58 * 60)/(60 + 60)和平均值(60 + 60)/ 2。
如何讀取數據?熊貓通常不接受索引中的重複項。 – eumiro
我使用pds.read_csv,它讀取數據沒有問題。它所做的是讓我的第一列成爲日期等等。 – Andrew