2013-05-13 52 views
2

道歉,如果這是某處記錄,我只是沒有找到它:在大熊貓時間序列計算方差提前

比方說,我有一個看起來像這樣的時間序列數據幀:

WEEK_END_DATE    TITLE_SHORT   SALES 
2012-02-25 00:00:00.000000 "Bob" (EBK)   1 
2012-03-31 00:00:00.000000 "Bob" (EBK)   1 
2012-03-03 00:00:00.000000 "Sally" (EBK)   1 
2012-03-10 00:00:00.000000 "Sally" (EBK)   1 
2012-03-17 00:00:00.000000 "Sally" (EBK)   1 
2012-04-07 00:00:00.000000 "Sally" (EBK)   1 

我想計算銷售量的協方差,以便找到傾向於一起移動的用戶。我知道熊貓有一個協變特徵:http://pandas.pydata.org/pandas-docs/stable/computation.html#covariance,但我不確定如何爲這種目的重塑我的數據。

我正確地認爲用戶需要設置爲列索引,以便每個系列都是時間序列中的一個向量?我不知道該怎麼做。

+0

你的「一起行動」是什麼意思?這是否意味着要進入相同的「WEEK_END_DATE」? – waitingkuo 2013-05-13 02:07:21

+0

我認爲,通過「一起移動」,他意味着他們「共同變化」,即OP使用協方差作爲相關性的度量(而不是實際計算相關性)。 – 2013-05-13 02:19:46

+0

這意味着採購的一般形式對薩利和鮑勃來說是一樣的。另一個例子是股票--Google股票往往會一起上漲或下跌,與蘋果股票的通信量要高於通用電氣公司。 – 2013-05-13 02:20:46

回答

0

樞軸不太對,但這個工作:

df = pd.pivot_table(df, rows='WEEK_END_DATE', cols='TITLE_SHORT', values='SALES', aggfunc="sum") 

我不知道有什麼不同。

2

您正在尋找熊貓pivot。首先要做的是:

df.pivot(index='WEEK_END_DATE', columns='TITLE_SHORT', values='SALES') 

你應該把鮑勃和薩莉當作列。然後你可以用這兩列進行正常的相關分析。

+0

謝謝!我不知道我是如何忘記數據透視表 – 2013-05-13 17:53:20