我有一個「句子」的數據框,我想從中搜索關鍵字。假設我的關鍵字只是字母'A'。示例數據:Python熊貓計數
year | sentence | index
-----------------------
2015 | AAX | 0
2015 | BAX | 1
2015 | XXY | -1
2016 | AWY | 0
2017 | BWY | -1
也就是說,「索引」列顯示每個句子中「A」的第一次出現的索引(如果未找到則爲-1)。我想將行分組到各自的年份,並在列中顯示每年記錄中出現「A」的百分比。那就是:
year | index
-------------
2015 | 0.667
2016 | 1.0
2017 | 0
我有一種感覺,這需要以某種方式agg
或groupby
,但我不清楚如何串在一起的這些。我已經得到了儘可能:
df.groupby("index").count()
但這裏的問題是某種條件計數的()首先,我們先算含有「A」在一年201X的行數,再除以按201X年的行數計算。