根據當地時間（HH：MM）計算24小時週期內的每分鐘平均銷售量

在本例中，我們有兩天的數據採樣時間爲1分鐘，給我們2880次測量。測量結果依次收集到多個時區：歐洲/倫敦的前240分鐘以及'America/Los_Angeles'中剩餘的2640個測量值。根據當地時間（HH：MM）計算24小時週期內的每分鐘平均銷售量

import pandas as pd 
import numpy as np 
df=pd.DataFrame(index=pd.DatetimeIndex(pd.date_range('2015-03-29 00:00','2015-03-30 23:59',freq='1min',tz='UTC'))) 
df.loc['2015-03-29 00:00':'2015-03-29 04:00','timezone']='Europe/London' 
df.loc['2015-03-29 04:00':'2015-03-30 23:59','timezone']='America/Los_Angeles' 
df['sales1']=np.random.random_integers(100,size=len(df)) 
df['sales2']=np.random.random_integers(10,size=len(df))

要計算多日的24小時週期平均銷售每分鐘（根據UTC時間）以下方法效果很好：

utc_sales=df.groupby([df.index.hour,df.index.minute]).mean() 
utc_sales.set_index(pd.date_range("00:00","23:59", freq="1min").time,inplace=True)

這GROUPBY方法也可以應用於計算基於其他兩個時區之一的平均銷售額，例如「歐洲/倫敦」。

df['London']=df.index.tz_convert('Europe/London') 
london_sales=df.groupby([df['London'].dt.hour,df['London'].dt.minute]).mean() 
london_sales.set_index(pd.date_range("00:00","23:59", freq="1min").time,inplace=True)

但是我掙扎拿出一個24小時的週期計算每分鐘每-as平均localtime-銷售的有效方式。我嘗試了上面的相同方法，但是當同一系列中存在多個時區時，groupby將恢復到utc中的索引。

def calculate_localtime(x): 
    return pd.to_datetime(x.name,unit='s').tz_convert(x['timezone']) 
df['localtime']=df.apply(calculate_localtime,axis=1) 
local_sales=df.groupby([df['localtime'].dt.hour,df['localtime'].dt.minute]).mean() 
local_sales.set_index(pd.date_range("00:00","23:59",freq="1min").time,inplace=True)

我們可以驗證local_sales是否與utc_sales相同，因此此方法不起作用。

In [8]: np.unique(local_sales == utc_sales) 
Out[8]: array([ True], dtype=bool)

任何人都可以推薦一種適用於大型數據集和多個時區的方法嗎？

來源

2015-10-18 themachinist

這是一種獲得我想要的東西的方法。這就要求大熊貓0.17.0或更新

創建數據，你根據時區有aboe

import pandas as pd 
import numpy as np 

pd.options.display.max_rows=12 
np.random.seed(1234) 
df=pd.DataFrame(index=pd.DatetimeIndex(pd.date_range('2015-03-29 00:00','2015-03-30 23:59',freq='1min',tz='UTC'))) 
df.loc['2015-03-29 00:00':'2015-03-29 04:00','timezone']='Europe/London' 
df.loc['2015-03-29 04:00':'2015-03-30 23:59','timezone']='America/Los_Angeles' 
df['sales1']=np.random.random_integers(100,size=len(df)) 
df['sales2']=np.random.random_integers(10,size=len(df)) 

In [79]: df 
Out[79]: 
             timezone sales1 sales2 
2015-03-29 00:00:00+00:00  Europe/London  48  6 
2015-03-29 00:01:00+00:00  Europe/London  84  1 
2015-03-29 00:02:00+00:00  Europe/London  39  1 
2015-03-29 00:03:00+00:00  Europe/London  54  10 
2015-03-29 00:04:00+00:00  Europe/London  77  5 
2015-03-29 00:05:00+00:00  Europe/London  25  9 
...          ...  ...  ... 
2015-03-30 23:54:00+00:00 America/Los_Angeles  77  8 
2015-03-30 23:55:00+00:00 America/Los_Angeles  16  4 
2015-03-30 23:56:00+00:00 America/Los_Angeles  55  3 
2015-03-30 23:57:00+00:00 America/Los_Angeles  18  1 
2015-03-30 23:58:00+00:00 America/Los_Angeles  3  2 
2015-03-30 23:59:00+00:00 America/Los_Angeles  52  2 

[2880 rows x 3 columns]

樞軸;這創建了與時區分開的多索引

x = pd.pivot_table(df.reset_index(),values=['sales1','sales2'],index='index',columns='timezone').swaplevel(0,1,axis=1) 
    x.columns.names = ['timezone','sales'] 

In [82]: x 
Out[82]: 
timezone     America/Los_Angeles Europe/London America/Los_Angeles Europe/London 
sales         sales1  sales1    sales2  sales2 
index                       
2015-03-29 00:00:00+00:00     NaN   48     NaN    6 
2015-03-29 00:01:00+00:00     NaN   84     NaN    1 
2015-03-29 00:02:00+00:00     NaN   39     NaN    1 
2015-03-29 00:03:00+00:00     NaN   54     NaN   10 
2015-03-29 00:04:00+00:00     NaN   77     NaN    5 
2015-03-29 00:05:00+00:00     NaN   25     NaN    9 
...          ...   ...     ...   ... 
2015-03-30 23:54:00+00:00     77   NaN     8   NaN 
2015-03-30 23:55:00+00:00     16   NaN     4   NaN 
2015-03-30 23:56:00+00:00     55   NaN     3   NaN 
2015-03-30 23:57:00+00:00     18   NaN     1   NaN 
2015-03-30 23:58:00+00:00     3   NaN     2   NaN 
2015-03-30 23:59:00+00:00     52   NaN     2   NaN 

[2880 rows x 4 columns]

創建我們要使用的石斑，即本地區域中的小時和分鐘。我們將根據面具IOW填充它們。其中sales1/sales2均爲空，我們將使用該（本地）區域的小時數/分鐘數

hours = pd.Series(index=x.index) 
minutes = pd.Series(index=x.index) 
for tz in ['America/Los_Angeles', 'Europe/London' ]: 

    local = df.index.tz_convert(tz) 
    x[(tz,'tz')] = local 

    mask = x[(tz,'sales1')].notnull() & x[(tz,'sales2')].notnull() 
    hours.iloc[mask.values] = local.hour[mask.values] 
    minutes.iloc[mask.values] = local.minute[mask.values] 

x = x.sortlevel(axis=1)

之後。（注意這可能有點簡化，這意味着我們不需要實際記錄本地時區，只需計算小時/分鐘）。

Out[84]: 
timezone     America/Los_Angeles         Europe/London         
sales         sales1 sales2      tz  sales1 sales2      tz 
index                               
2015-03-29 00:00:00+00:00     NaN NaN 2015-03-28 17:00:00-07:00   48  6 2015-03-29 00:00:00+00:00 
2015-03-29 00:01:00+00:00     NaN NaN 2015-03-28 17:01:00-07:00   84  1 2015-03-29 00:01:00+00:00 
2015-03-29 00:02:00+00:00     NaN NaN 2015-03-28 17:02:00-07:00   39  1 2015-03-29 00:02:00+00:00 
2015-03-29 00:03:00+00:00     NaN NaN 2015-03-28 17:03:00-07:00   54  10 2015-03-29 00:03:00+00:00 
2015-03-29 00:04:00+00:00     NaN NaN 2015-03-28 17:04:00-07:00   77  5 2015-03-29 00:04:00+00:00 
2015-03-29 00:05:00+00:00     NaN NaN 2015-03-28 17:05:00-07:00   25  9 2015-03-29 00:05:00+00:00 
...          ... ...      ...   ... ...      ... 
2015-03-30 23:54:00+00:00     77  8 2015-03-30 16:54:00-07:00   NaN NaN 2015-03-31 00:54:00+01:00 
2015-03-30 23:55:00+00:00     16  4 2015-03-30 16:55:00-07:00   NaN NaN 2015-03-31 00:55:00+01:00 
2015-03-30 23:56:00+00:00     55  3 2015-03-30 16:56:00-07:00   NaN NaN 2015-03-31 00:56:00+01:00 
2015-03-30 23:57:00+00:00     18  1 2015-03-30 16:57:00-07:00   NaN NaN 2015-03-31 00:57:00+01:00 
2015-03-30 23:58:00+00:00     3  2 2015-03-30 16:58:00-07:00   NaN NaN 2015-03-31 00:58:00+01:00 
2015-03-30 23:59:00+00:00     52  2 2015-03-30 16:59:00-07:00   NaN NaN 2015-03-31 00:59:00+01:00 

[2880 rows x 6 columns]

這使用時區的新表示法（在0.17.0中）。

In [85]: x.dtypes 
Out[85]: 
timezone    sales 
America/Los_Angeles sales1        float64 
        sales2        float64 
        tz  datetime64[ns, America/Los_Angeles] 
Europe/London  sales1        float64 
        sales2        float64 
        tz    datetime64[ns, Europe/London] 
dtype: object

結果

x.groupby([hours,minutes]).mean() 

timezone America/Los_Angeles  Europe/London  
sales     sales1 sales2  sales1 sales2 
0 0     62.5 5.5   48  6 
    1     52.0 7.0   84  1 
    2     89.0 3.5   39  1 
    3     67.5 6.5   54  10 
    4     41.0 5.5   77  5 
    5     81.0 5.5   25  9 
...      ... ...   ... ... 
23 54     76.5 4.5   NaN NaN 
    55     37.5 5.0   NaN NaN 
    56     60.5 8.0   NaN NaN 
    57     87.5 7.0   NaN NaN 
    58     77.5 6.0   NaN NaN 
    59     31.0 5.5   NaN NaN 

[1440 rows x 4 columns]

來源

2015-10-18 23:09:24 Jeff

根據當地時間（HH：MM）計算24小時週期內的每分鐘平均銷售量

回答

相關問題