幾個操作後,分組通過我與州,縣和人口的統計數據框與下面列:Python的數據框中:如何繼續對數據幀
SUMLEV REGION DIVISION STATE COUNTY STNAME CTYNAME CENSUS2010POP
並與下面的線,我的分組數據幀和排序每個狀態的全縣人口
sorted_df = temp_df.groupby(['STNAME']).apply(lambda x: x.sort_values(['CENSUS2010POP'], ascending = False))
排序後,我想只保留3個最大的縣人口明智
largestcty = sorted_df.groupby(['STNAME'])["CENSUS2010POP"].nlargest(3)
而且作爲下一步我想那裏的值相加witrh下面的命令
top3sum = largestcty.groupby(['STNAME']).sum()
但現在的問題是關鍵「STNAME」是不是在GROUP BY後的系列。我的問題是如何保留系列中原始DataFrame的按鍵?
因此應用的答案後,我有top3sum
作爲一個數據幀
top3sum = pd.DataFrame(largestcty.groupby(['STNAME'])'STNAME','CENSUS2010POP'].sum(),columns =['CENSUS2010POP'])
top3sum[:8]
>>> STNAME CENSUS2010POP
Alabama 1406269 Alaska 478402 Arizona 5173150 Arkansas 807152 California 15924150 Colorado 1794424 Connecticut 2673320 Delaware 897934
這是top3sum數據看起來怎麼樣,然後我得到:
cnty = top3sum['CENSUS2010POP'].idxmax()
而cnty = California
但後來試圖用我收到一個關鍵錯誤
請出示你的樣本數據意味着什麼。自您彙總後,您將無法保留原始指數。你在尋找'reset_index()'? – Parfait
我使用了reset_index(),我明白聚合後索引消失了,但我的問題是如何基於新數據框中的舊鍵重新創建索引。 –
本來有助於查看原始數據和預期結果。不知道你的意思是*鍵*。 – Parfait