熊貓：矢量化時間間隔中的行計數

我的情況如下。我有A類賽事之一系列（a_series），由是PersonID和另一個ID無關的問題索引：熊貓：矢量化時間間隔中的行計數

PersonID  AnotherID 
19   768   2013-02-03 13:39:00 
       767   2013-02-03 14:03:00 
       766   2013-02-03 15:35:00 
       765   2013-02-03 22:32:00 
       764   2013-02-04 11:36:00 
       763   2013-02-04 12:07:00 
26   762   2013-02-18 13:21:00 
... 
730   66901   2014-08-21 21:09:00 
       67078   2014-08-22 23:44:00 
       67141   2014-08-23 11:16:00 
       67168   2014-08-23 14:53:00 
       67216   2014-08-23 21:45:00 
Name: Timestamp, Length: 34175, dtype: datetime64[ns]

而且我得到了另一個系列（b_series），正是建立在同一的，但B型的描述事件：

PersonID  AnotherID 
26   939  2013-02-18 06:01:00 
       940  2013-02-18 06:47:00 
       941  2013-02-19 07:02:00 
... 
728   65159  2014-08-14 18:40:00 
729   66104  2014-08-18 09:08:00 
       66229  2014-08-18 17:31:00 
Name: Timestamp, Length: 1886, dtype: datetime64[ns]

注意的是，雖然結構是一樣的，指數是不一樣的 - 這意味着一個人可以有更多的事件比事件B，可能不會有一定的活動鍵入。

我想創建一個具有相同結構a_series的系列，但是對於每一行，計算髮生在A事件之前12小時內的b_series的事件數量。因此，舉例來說，如果我們走線26 762 2013-02-18 13:21:00從series_a，它的價值應該是2

我已經成功地做到這一點與應用，如：

def apply_func(x, series_b): 
    try: 
     return series_b.loc[x['PersonID']].\ 
      between(x['Timestamp'] - timedelta(hours = 12), x['Timestamp']).sum() 
    except KeyError: 
     return 0 

new_series = series_a.apply(apply_func, axis = 1, args = (seriesb,)) 
new_series.index = series_a.index

但我不禁覺得必須有更高效的「熊貓」方式。也許用groupby或lookup？

來源

2014-08-30 Korem

根據框架和比賽的數量的大小，它可能更有效地使用連接操作：

首先，給系列名稱，將其更改爲數據幀：

>>> a.name, b.name = 'a', 'b' 
>>> xb = b.reset_index(level=-1).filter('b') 
>>> xa = a.reset_index()

然後，加入他們的'PersonID'：

>>> df = xa.join(xb, on='PersonID', how='inner') 
>>> df 
    PersonID AnotherID     a     b 
6  26  762 2013-02-18 13:21:00 2013-02-18 06:01:00 
6  26  762 2013-02-18 13:21:00 2013-02-18 06:47:00 
6  26  762 2013-02-18 13:21:00 2013-02-19 07:02:00

現在，算上命中數：

>>> lag = np.timedelta64(12, 'h') 
>>> df['cnt'] = (df['b'] < df['a']) & (df['a'] < df['b'] + lag) 
>>> ts = df.groupby(['PersonID', 'AnotherID', 'a'])['cnt'].sum() 
>>> ts 
PersonID AnotherID a     
26  762  2013-02-18 13:21:00 2 
Name: cnt, dtype: float64

，並與原系列一致：

>>> xcol = ['PersonID', 'AnotherID', 'a'] 
>>> xa.join(ts, on=xcol).fillna(0).set_index(xcol[:-1]) 
            a cnt 
PersonID AnotherID       
19  768  2013-02-03 13:39:00 0 
     767  2013-02-03 14:03:00 0 
     766  2013-02-03 15:35:00 0 
     765  2013-02-03 22:32:00 0 
     764  2013-02-04 11:36:00 0 
     763  2013-02-04 12:07:00 0 
26  762  2013-02-18 13:21:00 2 
730  66901  2014-08-21 21:09:00 0 
     67078  2014-08-22 23:44:00 0 
     67141  2014-08-23 11:16:00 0 
     67168  2014-08-23 14:53:00 0 
     67216  2014-08-23 21:45:00 0

來源

2014-08-31 15:33:41

第一個加入實際上是笛卡爾積，對不對？我會盡力在真實數據上計時。謝謝。 – Korem 2014-08-31 15:40:38

@Korem它是笛卡爾產品只有匹配的'PersonID'行，而不是兩個框架。它仍然是上述代碼的瓶頸，如果兩個系列中每個「PersonID」有很多行，則效率可能不高。 – 2014-08-31 15:46:42

是的，但我的解決方案在這些條款中並沒有更好的解決方案。它遍歷完全相同數量的「行」。 – Korem 2014-08-31 15:54:45

熊貓：矢量化時間間隔中的行計數

回答

相關問題