pandas-groupby

6熱度

3回答

我有一個數據框，每年的課程名稱。我需要找到個月時間，從今年開始到2016年 from io import StringIO import pandas as pd u_cols = ['page_id','web_id'] audit_trail = StringIO(''' year_id | web_id 2012|efg 2013|abc 2014| xyz 2015|

0熱度

2回答

Python的熊貓秩/排序基於該不同對每個輸入

我想拿出以下，基於前三個第4列的另一列： user job time Rank A print 1559 2 A print 1540 2 A edit 1520 1 A edit 1523 1 A deliver 9717 3 B edit 1717 2 B edit 1716 2 B edit 1715 2 B deliver 1527 1 B deliver 1524 1

0熱度

2回答

將熊貓羣組合並轉換爲多索引數據框

我對Python熊貓相當陌生，而且我有問題讓熊貓人GroupBy與transform結合起來，以我想要的方式行事。我一直無法找到已發佈的答案，但我可能錯過了一些東西。我有大量條目的數據幀，結構類似如下： GLT_City = pd.read_csv('GlobalLandTemperaturesByCity.csv', sep=',') GLT_City.head() AvgTem

2熱度

1回答

在熊貓羣組上使用value_counts時，如何忽略空系列？

我有一個DataFrame與每行報紙文章的元數據。我想這些組分成每月塊，再算上一列（稱爲type）的值： monthly_articles = articles.groupby(pd.Grouper(freq="M")) monthly_articles = monthly_articles["type"].value_counts().unstack() 這工作得很好，年組，但是當我嘗試按

0熱度

1回答

根據大熊貓分組後的匹配字符串過濾數據

我想按Id和Vehicle進行分組，然後只返回拍賣只有「合併搶救」和「合併搶救API」值的車輛。擁有除這兩種類型以外的拍賣的車輛將被過濾掉。我怎樣才能做到這一點？數據： Id Vehicle Auction Offer 10 1984 Porsche 944 Copart 100 10 1984 Porsche 944 Merged Salvage 200 10 198

1熱度

2回答

在Pandas中高效地分組，編輯和重新加入組

在熊貓中，我一直在尋找一種通用流程來按特定列對數據框進行分組，對這些組執行不重要的操作，然後再次重組這些組回到一個大的數據框（通過有效地堆疊在彼此之上）。想象我有一個數據幀df： +----+-------+---+---+---+ | | A | B | C | D | +----+-------+---+---+---+ | 0 | Green | 1 | 4 | 5 | | 1 |

2熱度

3回答

組合對象上執行操作以及由此創建變量

後索引數據幀我有一個看起來像這樣的數據幀： Id Category Score 1 M 0.2 2 C 0.4 2 M 0.3 1 C 0.1 2 M 0.3 1 M 0.2 1 C 0.1 1 C 0.1 2 C 0.4 我想組由Id和Category，然後找到最大打分並創建一個名爲Category_Label的新變量，其行數等於最大得分

0熱度

2回答

熊貓：GROUPBY

我有數據幀 df = pd.DataFrame({'member_id': [111, 111, 111, 111, 222, 222, 333, 333], 'event_duration': [12, 242, 3, 21, 4, 76, 34, 12], 'period': [1, 2, 2, 2, 3, 3, 4, 4]}) event_duration member_id p

0熱度

1回答

GROUPBY時間序列填充0

給定一個熊貓時間序列數據幀由分組丟失的數據「UUT」 df Out[64]: UUT Sum Date_Time 2017-04-28 18:48:16 uut-01 2 2017-04-28 18:48:18 uut-02 2 2017-04-28 18:48:19 uut-03 2 我想使用重新索引來創建以1秒間隔的時間系列，和在所述間隙與0值填僅列

1熱度

1回答

Python熊貓適用值

我有一個df有幾列：'小時'，'天'，'星期'，'月'，'年'和'價值'。我已經「周」和「時間」與「價值」尋找均值（）進行分組： df_group = df.groupby(['week','hour']).value.mean().reset_index() 現在我想申請的是平均值爲每星期每一個小時的單獨列。有任何想法嗎？提前謝絕！