熊貓功能操作

-13

數據來自美國人口普查局。縣是美國各州的政治和地理分區。該數據集包含2010年至2015年美國各州和州的人口數據。熊貓功能操作

哪個州的州最多？（提示：仔細考慮sumlevel密鑰！您也需要這個以備將來的問題...）

我無法從代碼中提取縣名。請幫助

我的代碼：

import pandas as pd 
import numpy as np 
census_df = pd.read_csv('census.csv') 
census_df.head() 
def answer_five(): 
    return census_df.groupby('STNAME').COUNTY.sum().max() 



answer_five()

來源

2017-01-09 Vivek

這個問題不包括任何示例數據或任何嘗試過濾數據，另外這個問題看起來像功課，所以你需要在這裏顯示更多的努力 – EdChum

你剛剛複製你的作業練習嗎？ –

看來答案是[這裏]（http://stackoverflow.com/q/40957458/2901002） – jezrael

這裏是爲我工作的回答：

def answer_five(): 
    return census_df.groupby(["STNAME"],sort=False).sum()["COUNTY"].idxmax()

第一部分產生聚集的DF

census_df.groupby(["STNAME"],sort=False).sum()

第二部分以山坳你需要

["COUNTY"].idxmax()

以及對應至最大指數收益值，檢查here

來源

2017-01-20 22:12:49 Dima

這看起來不對我。根據[co-est2015-alldata.pdf] [1]，COUNTY是FIPS代碼，它是一個變量int。根據代碼和解釋，我相信你總結了可能大於等於1的整數，它不是1對1的關係。如果SUMLEV = 50，應該發生的情況是+ = 1。 [1]：https：//www2.census.gov/programs-surveys/popest/technical-documentation/file-layouts/2010-2015 /co-est2015-alldata.pdf – Eric

-1

def answer_five(): 
    return census_df.groupby('STNAME')['CTYNAME'].count().idxmax()

來源

2017-03-25 21:21:22 Terk

儘管此代碼可能會回答問題，但提供有關如何解決問題和/或解決問題原因的其他上下文會提高答案的長期價值。 –

這是一個從.max()到idxmax()返回爲STNAME，而不是一個大的整數正確的值的變化。

來源

2018-02-25 18:52:53 Nathan

只是糾正你的整個代碼。

首先，根據來源，SUMLEV的50表示該行是一個縣。兩種方式來回答這個問題。

思考過程（想像它在Excel中一樣）：您想要計算每個狀態組中「縣行」的數量。首先，您創建掩碼/條件以選擇全部SUMLEV == 50（「國家行」）。然後按STNAME分組。然後用.size()來統計每個分組的行數。

# this is it! 
def answer_five(): 
    mask = (census_df.SUMLEV == 50) 
    max_index = census_df[mask].groupby('STNAME').size().idxmax() 
    return max_index 

# not so elegant 
def answer_five(): 
    census_df['Counts'] = 1 
    mask = (census_df.SUMLEV == 50) 
    max_index = census_df[mask].groupby('STNAME')['Counts'].sum().idxmax() 
    return max_index

不客氣。 https://pandas.pydata.org/pandas-docs/stable/generated/pandas.core.groupby.GroupBy.size.html

來源

2018-03-05 16:19:19 jasonlcy91

熊貓功能操作

回答

相關問題