我有索引的month
列數據框(使用df = df.set_index('month')
集,如果這是相關的):熊貓:按指數值分組,然後計算分位數?
org_code ratio_cost
month
2010-08-01 1847 8.685939
2010-08-01 1848 7.883951
2010-08-01 1849 6.798465
2010-08-01 1850 7.352603
2010-09-01 1847 8.778501
我想添加一個新列名爲quantile
,這將指定位數的值的每一行,根據其月份的價值爲ratio_cost
。
所以上面的例子可能是這樣的:
org_code ratio_cost quantile
month
2010-08-01 1847 8.685939 100
2010-08-01 1848 7.883951 66.6
2010-08-01 1849 6.798465 0
2010-08-01 1850 7.352603 33.3
2010-09-01 1847 8.778501 100
我怎樣才能做到這一點?我試過這個:
df['quantile'] = df.groupby('month')['ratio_cost'].rank(pct=True)
但是我得到了KeyError: 'month'
。
UPDATE:我可以重現該錯誤。
這裏是我的CSV文件:http://pastebin.com/raw/6xbjvEL0
這裏是重現該錯誤代碼:
df = pd.read_csv('temp.csv')
df.month = pd.to_datetime(df.month, unit='s')
df = df.set_index('month')
df['percentile'] = df.groupby(df.index)['ratio_cost'].rank(pct=True)
print df['percentile']
我用熊貓0.17.1在OSX。
嘗試'DF [ '分位數'] = df.groupby(df.index)[ 'ratio_cost']秩(PCT = TRUE)'或'DF。 ['quantile'] = df.groupby(level = 0)['ratio_cost']。rank(pct = True)' – jezrael
謝謝。我試過'print df.groupby(level = 0)',但它給了我'提升ValueError'。與'df.groupby(df.index)'相同。 – Richard
啊,月份列是日期時間 - 是一個問題嗎?我已經更新了問題以顯示它的產生。 – Richard