我有一個熊貓數據幀看起來像下面相等的長度:切片大熊貓數據幀到第34
page hour count
0 3899549 399593 1530
1 3899549 399594 1610
2 3899549 399595 1592
3 3899549 399596 1220
4 3899549 399597 1729
5 3899549 399598 224
6 3899549 399599 481
的完整的數據集是在這裏提供: http://www.sharecsv.com/s/b2dbe8e49d6a2481de138f6ca06c679e/test.csv
對於每個頁面,有連續34小時的小時數據。有些情況下,同一頁面在多個不同時間段內有34小時的數據值。這是有問題的,因爲當我創建一個groupby數據框時,我得到的是多於34的多個組。理想情況下,我想將這些組中的每個組劃分爲最多34小時。小時數據是連續的,這應該變得更容易。在鏈接的數據集中,頁面0f 3694750
是具有多個34小時時段的頁面的示例。
理想情況下,對於有多個34組的頁面,我想添加_1,_2,_3等後綴,這樣我就可以爲頁面的所有特定實例組groupby。我需要這樣,因爲我需要轉發數據。
我試過下面沒有成功:
for name, group in hourly_groups:
for i, x in enumerate(group):
print x
而且
for k, g in df_hourly.groupby(df_hourly['page'] - 34):
print g
你想的跨頁小時34個組,或者你想爲每個頁面的數據等於34小時大塊? –
@BurhanKhalid對於每一頁,數據拆分爲34小時的塊 – metersk