2014-03-31 172 views
2

我有一個月的數據有關火車站的數據,其中三個是索引:站,日期,小時。 我可能看起來像這樣:熊貓groupby列沒有multiindex

Station Date  Hour Passengers 
Berlin HBF 2012-12-24 12:00 1000 
Berlin HBF 2012-12-24 13:00 2000 
Berlin HBF 2012-12-24 14:00 1000 
Berlin HBF 2012-12-24 15:00 1000 
.... 
Stuttgart 2012-12-24 12:00 500 

由於我只對資金用於在一個月內站感興趣,我想通過車站,日期和小時GROUPBY,從而使最終的結果看起來是這樣的:

Station Passengers 
Berlin HBF 4000 
.... 
Stuttgart 500 

不過,我不能讓熊貓這個解決方案,我想: byStation = traindata.groupby([ '站', '日期', '一小時'])AGG(np.sum() ) 但是,這只是返回一個multiindex,與所有行...

+0

看起來像你所說的「站」希望組僅做一筆過「乘客1」 -column。這裏你不需要多索引(你的解決方案會創建一個,但因爲它與原始數據是一樣的,所以它是無用的) – dorvak

+0

呃,現在我看到了錯誤。謝謝你這麼多! 你可以添加你的評論作爲答案 –

回答

2

看起來你只想通過「Station」進行分組,然後對「Passangers」列進行求和。這裏不需要多索引。你的解決方案將創建一個,但因爲它與原始數據是一樣的,所以它是無用的。

這一個應該工作:

traindata.groupby("Station").Passengers.sum()