pandas-groupby

0熱度

1回答

我有一個與TimeSeries pandas.DataFrame（所有列都被鑄造爲float），這些行使用DatetimeIndex（粒度/頻率大約1小時）行和MultiIndex列編制索引。系列中缺少數據（但沒有缺失行，頻率設置）。我想按月計算收購表現（百分比）。 def mapMonth(x): return x.replace(day=1, hour=0, minute=0, se

0熱度

1回答

pandas groupby：使用元組索引來聚合列表

該問題類似於一個詢問here，但帶有元組索引。分組列表的列單指數正常工作： mydata = [{'idx': 'A', 'list_str': ['hi', 'babe']}, {'idx': 'A', 'list_str': ['take', 'a', 'walk']}, {'idx': 'A', 'list_str': []}, {'idx': '

0熱度

1回答

當使用熊貓TimeGrouper時改變列上的函數應用

我有一個非常大的時間序列數據集，我想在close_p上執行count（），但是在prd_vlm上執行sum（）。 open_p high_p low_p close_p tot_vlm prd_vlm datetime 2005-09-06 16:33:00 1234.25 1234.50 1234.25 1234.25 776 98 2005-

1熱度

1回答

傳遞數組參數到我自己的2D函數

我給出的以下大熊貓數據幀 df long lat weekday hour dttm 2015-07-03 00:00:38 1.114318 0.709553 6 0 2015-08-04 00:19:18 0.797157 0.086720 3 0 2015-08-04 00:19:46 0.797157 0.086720 3

0熱度

1回答

在應用於Pandas Group的函數中包含NaN值對象

我想計算重複測量的平均值，並在一個或兩個重複項具有NaN值時返回NaN。我知道groupby不包括NaN值，但我花了一些時間才意識到apply正在做同樣的事情。以下是我的代碼示例。當兩個重複都缺少數據時，它只返回NaN。在這個例子中，我希望它返回樣本1，樣本2的NaN。相反，它的行爲如同我應用np.nanmean並返回一個非零元素27.0。關於在我正在應用的函數中包含NaN值的策略的任何想法？ I

1熱度

1回答

如何申請一個用戶定義的功能，用於在Python

每個分組我有一個數據幀DF1如下： Country|Month|Revenue -------|-----|------- US |Jan |100 US |Feb |200 US |Mar |300 Canada |Jan |200 Canada |Feb |400 Canada |Mar |500 我要應用用戶定義的函數，如下所示： df3=df1.groupby(['

2熱度

1回答

應用數據幀返回函數以鹼數據幀中的每一行

玩具例如假設base_df是如下所示的微小的數據幀： In [221]: base_df Out[221]: seed I S 0 a 0 b 1 1 a 2 b 3 注意base_df具有2級多指數爲行。（部分問題涉及在傳播的數據框中「傳播」這個多索引的值）。現在，函數fn（定義在本文末尾給出）取整數seed作爲參數，並返回1按字符串鍵索

0熱度

1回答

pandas在多索引數據幀內對連續事件進行計數

我一直在爲此工作一段時間，似乎無法解決這個問題。我有一個多索引的數據幀正與2級水平，這看起來如下： def data(): data = {'date': pd.Series(['2016-1-1', '2016-1-1', '2016-1-1', '2016-1-2', '2016-1-2', '2016-1-2', '2016-1-3'

4熱度

2回答

GROUPBY並返回第一n組

我有一個熊貓數據幀像下面 >>> df.head() 0 1 2 3 4 5 6 0 35000 26009 OPTIDX BANKNIFTY XX 1499351400 BANKNIFTY1770621000CE 1 35001 26009 OPTIDX BANKNIFTY XX 1499351400 BANKNIFTY1770621000PE 2 350

1熱度

2回答

Pandas GroupBy Date Chunks

我試圖將熊貓數據框分組爲2天的桶。舉例來說，如果我做了如下： df = pd.DataFrame() df['action_date'] = ['2017-01-01', '2017-01-01', '2017-01-03', '2017-01-04', '2017-01-04', '2017-01-05', '2017-01-06'] df['action_date'] = pd.to_da