2014-06-19 156 views
4

我懷疑很多人的數據已經遇到此問題的時間序列,和熊貓的工作似乎並沒有提供一個簡單的解決方案結束(尚未!):大熊貓時間序列重新採樣某一天

假設:

  1. 您有一系列收盤價日常數據的時間序列,按日期(日期)進行了索引。
  2. 今天是19JUN。最後關閉數據值是18JUN。
  3. 您想要將日常數據重新採樣到OHLC柱,並以某個給定的頻率(假設M或2M)結束18JUN。

所以對於M頻率,最後一棒是19MAY-18JUN,前一個19APR-18MAY,等等...

ts.resample('M', how='ohlc') 

會做重採樣,但 'M' 是「end_of_month '期間,所以結果會給予2014-05的整整一個月和2014-06的2週期限,所以你最後的酒吧不會是'月度酒吧'。這不是我們想要的!

由於2M頻率,考慮到我的樣本時間序列,我的測試給了我最後一個小節標籤爲2014-07-31(以前標籤爲2014-05-31),這是相當誤導性的,因爲沒有關於JUL的數據。 ..所謂的最後2個月酒吧再次只是覆蓋最近的2周。

正確DatetimeIndex容易與創建:

pandas.date_range(end='2014-06-18', freq='2M', periods=300) + datetime.timedelta(days=18) 

(熊貓文檔更喜歡通過

pandas.date_range(end='2014-06-18', freq='2M', periods=300) + pandas.tseries.offsets.DateOffset(days=18) 

做同樣的事情,但我的測試表明,該方法雖然較爲「pandaïc」是2x更慢!)

無論採用哪種方法,我們都無法將正確的DatetimeIndex應用於ts.resample()。

似乎熊貓開發團隊(Date ranges in Pandas)已經意識到這個問題,但與此同時,您如何解決這個問題才能讓OHLC的滾動頻率在時間序列的最後一天處於停滯狀態?

回答

1

這基本上是從複製/粘貼黑客一起,我敢肯定在某些情況下失敗 - 但下面是一個自定義偏移的一些起始代碼,該代碼是錨定到一個月中的特定日期。

from pandas.tseries.offsets import (as_datetime, as_timestamp, apply_nat, 
           DateOffset, relativedelta, datetime) 
class MonthAnchor(DateOffset): 
    """DateOffset Anchored to day in month 

     Arguments: 
     day_anchor: day to be anchored to 
    """ 

    def __init__(self, n=1, **kwds): 
     super(MonthAnchor, self).__init__(n) 

     self.kwds = kwds 
     self._dayanchor = self.kwds['day_anchor'] 

    @apply_nat 
    def apply(self, other): 
     n = self.n 

     if other.day > self._dayanchor and n <= 0: # then roll forward if n<=0 
      n += 1 
     elif other.day < self._dayanchor and n > 0: 
      n -= 1 

     other = as_datetime(other) + relativedelta(months=n) 
     other = datetime(other.year, other.month, self._dayanchor) 
     return as_timestamp(other) 

    def onOffset(self, dt): 
     return dt.day == self._dayanchor 

    _prefix = '' 

用法示例:

In [28]: df = pd.DataFrame(data=np.linspace(50, 100, 200), index=pd.date_range(end='2014-06-18', periods=200), columns=['value']) 

In [29]: df.head() 
Out[29]: 
       value 
2013-12-01 50.000000 
2013-12-02 50.251256 
2013-12-03 50.502513 
2013-12-04 50.753769 
2013-12-05 51.005025 


In [61]: month_offset = MonthAnchor(day_anchor = df.index[-1].day + 1) 

In [62]: df.resample(month_offset, how='ohlc') 
Out[62]: 
       value         
       open  high  low  close 
2013-11-19 50.000000 54.271357 50.000000 54.271357 
2013-12-19 54.522613 62.060302 54.522613 62.060302 
2014-01-19 62.311558 69.849246 62.311558 69.849246 
2014-02-19 70.100503 76.884422 70.100503 76.884422 
2014-03-19 77.135678 84.673367 77.135678 84.673367 
2014-04-19 84.924623 92.211055 84.924623 92.211055 
2014-05-19 92.462312 100.000000 92.462312 100.000000 
+0

看來,如果day_anchor是>例如28(用於FEB最後一天)失敗,有一個「ValueError異常:白天是超出範圍的一個月」 – comte