列出熊貓集團最常見的會員？

我有這樣的列一個數據幀：列出熊貓集團最常見的會員？

 id       lead_sponsor lead_sponsor_class 
    02837692 Janssen Research & Development, LLC   Industry 
    02837679    Aarhus University Hospital    Other 
    02837666 Universidad Autonoma de Ciudad Juarez    Other 
    02837653   Universidad Autonoma de Madrid    Other 
    02837640   Beirut Eye Specialist Hospital    Other

我想找到最常見的主要發起者。我可以列出使用每個組的大小：

df.groupby(['lead_sponsor', 'lead_sponsor_class']).size()

，給了我這樣的：

lead_sponsor        lead_sponsor_class 
307 Hospital of PLA      Other     1 
3E Therapeutics Corporation    Industry    1 
3M          Industry    4 
4SC AG         Industry    8 
5 Santé         Other     1

但我怎麼找到頂級的10種最常見的羣體？如果我做的：

df.groupby(['lead_sponsor', 'lead_sponsor_class']).size().sort_values(ascending=False).head(10)

然後我得到一個錯誤：

AttributeError: 'Series' object has no attribute 'sort_values'

來源

2016-08-25 Richard

對我而言，您的解決方案也適用。 – jezrael

我認爲你可以使用Series.nlargest：

print (df.groupby(['lead_sponsor', 'lead_sponsor_class']).size().nlargest(10))

在docs是注意：

Faster than .sort_values(ascending=False).head(n) for small n relative to the size of the Series object.

樣品：

import pandas as pd 

df = pd.DataFrame({'id': {0: 2837692, 1: 2837679, 2: 2837666, 3: 2837653, 4: 2837640}, 
        'lead_sponsor': {0: 'a', 1: 'a', 2: 'a', 3: 's', 4: 's'}, 
        'lead_sponsor_class': {0: 'Industry', 1: 'Other', 2: 'Other', 3: 'Other', 4: 'Other'}}) 

print (df) 
     id lead_sponsor lead_sponsor_class 
0 2837692   a   Industry 
1 2837679   a    Other 
2 2837666   a    Other 
3 2837653   s    Other 
4 2837640   s    Other 

print (df.groupby(['lead_sponsor', 'lead_sponsor_class']).size()) 
lead_sponsor lead_sponsor_class 
a    Industry    1 
       Other     2 
s    Other     2 
dtype: int64 

print (df.groupby(['lead_sponsor', 'lead_sponsor_class']).size().sort_values(ascending=False).head(2)) 
lead_sponsor lead_sponsor_class 
s    Other     2 
a    Other     2 
dtype: int64 

print (df.groupby(['lead_sponsor', 'lead_sponsor_class']).size().nlargest(2)) 
lead_sponsor lead_sponsor_class 
a    Other     2 
s    Other     2 
dtype: int64

來源

2016-08-25 09:11:48 jezrael

是的！謝謝！ – Richard

就這樣我明白這一點 - 是調用'.size（）'系列的結果嗎？我覺得我很困惑，因爲它看起來像一個數據框，而不是一個系列（它向左側打印兩列的方式）。 – Richard

是的，它是'系列'。你可以用'print（type（df.groupby（['lead_sponsor'，'lead_sponsor_class']）.size（）））來測試它'' '' – jezrael

列出熊貓集團最常見的會員？

回答

相關問題