pandas-groupby

    6熱度

    3回答

    我有一個數據框,每年的課程名稱。我需要找到個月時間,從今年開始到2016年 from io import StringIO import pandas as pd u_cols = ['page_id','web_id'] audit_trail = StringIO(''' year_id | web_id 2012|efg 2013|abc 2014| xyz 2015|

    0熱度

    2回答

    我想拿出以下,基於前三個第4列的另一列: user job time Rank A print 1559 2 A print 1540 2 A edit 1520 1 A edit 1523 1 A deliver 9717 3 B edit 1717 2 B edit 1716 2 B edit 1715 2 B deliver 1527 1 B deliver 1524 1

    0熱度

    2回答

    我對Python熊貓相當陌生,而且我有問題讓熊貓人GroupBy與transform結合起來,以我想要的方式行事。我一直無法找到已發佈的答案,但我可能錯過了一些東西。 我有大量條目的數據幀,結構類似如下: GLT_City = pd.read_csv('GlobalLandTemperaturesByCity.csv', sep=',') GLT_City.head() AvgTem

    2熱度

    1回答

    我有一個DataFrame與每行報紙文章的元數據。我想這些組分成每月塊,再算上一列(稱爲type)的值: monthly_articles = articles.groupby(pd.Grouper(freq="M")) monthly_articles = monthly_articles["type"].value_counts().unstack() 這工作得很好,年組,但是當我嘗試按

    0熱度

    1回答

    我想按Id和Vehicle進行分組,然後只返回拍賣只有「合併搶救」和「合併搶救API」值的車輛。擁有除這兩種類型以外的拍賣的車輛將被過濾掉。我怎樣才能做到這一點? 數據: Id Vehicle Auction Offer 10 1984 Porsche 944 Copart 100 10 1984 Porsche 944 Merged Salvage 200 10 198

    1熱度

    2回答

    在熊貓中,我一直在尋找一種通用流程來按特定列對數據框進行分組,對這些組執行不重要的操作,然後再次重組這些組回到一個大的數據框(通過有效地堆疊在彼此之上)。 想象我有一個數據幀df: +----+-------+---+---+---+ | | A | B | C | D | +----+-------+---+---+---+ | 0 | Green | 1 | 4 | 5 | | 1 |

    2熱度

    3回答

    後索引數據幀我有一個看起來像這樣的數據幀: Id Category Score 1 M 0.2 2 C 0.4 2 M 0.3 1 C 0.1 2 M 0.3 1 M 0.2 1 C 0.1 1 C 0.1 2 C 0.4 我想組由Id和Category,然後找到最大打分並創建一個名爲Category_Label的新變量,其行數等於最大得分

    0熱度

    2回答

    我有數據幀 df = pd.DataFrame({'member_id': [111, 111, 111, 111, 222, 222, 333, 333], 'event_duration': [12, 242, 3, 21, 4, 76, 34, 12], 'period': [1, 2, 2, 2, 3, 3, 4, 4]}) event_duration member_id p

    0熱度

    1回答

    給定一個熊貓時間序列數據幀由分組丟失的數據「UUT」 df Out[64]: UUT Sum Date_Time 2017-04-28 18:48:16 uut-01 2 2017-04-28 18:48:18 uut-02 2 2017-04-28 18:48:19 uut-03 2 我想使用重新索引來創建以1秒間隔的時間系列,和在所述間隙與0值填僅列

    1熱度

    1回答

    我有一個df有幾列:'小時','天','星期','月','年'和'價值'。我已經「周」和「時間」與「價值」尋找均值()進行分組: df_group = df.groupby(['week','hour']).value.mean().reset_index() 現在我想申請的是平均值爲每星期每一個小時的單獨列。有任何想法嗎? 提前謝絕!