我有一個數據幀格式爲:平均GROUPBY或在數據幀的平均與重複索引的GROUPBY
value identifier
2007-01-01 0.087085 55
2007-01-01 0.703249 56
2007-02-01 0.967872 55
2007-02-01 0.954142 56
2008-01-01 0.804404 55
2008-01-01 0.475372 56
2008-02-01 0.025823 55
2008-02-01 0.414736 56
我需要一個月做的箱線圖。還有的我怎麼做兩種方式:一是通過索引GROUPBY,複製到一個新的數據幀,並通過每月做一次GROUPBY:
by_index = dd.groupby(dd.index).mean()
temp = pd.DataFrame()
temp['value'] =by_index['value']
by_month = temp.groupby(lambda x: x.month)
by_month.boxplot(subplots=False)
還是第一GROUPBY一個月,直接取均值和劇情:
by_month = dd.groupby(lambda x: x.month)
by_month_avg = by_month.mean()
by_month_avg['value'].plot()
問題是兩種方法之間的方法不同。什麼是正確的方法?這兩個結果應該相等嗎?
不確定是什麼問題。手段是不一樣的,因爲在前一種方法中,jan2007和jan2008是不同的,但後者是相同的(因爲jan是jan,無論年份如何)。兩者都不是更正確的,只取決於你想要哪一個。 – JohnE
他們在第一種情況下按月份再次分組,所以最後它們是相同的 - 完全是我的問題。 – Ivan