0
新的號碼大熊貓我要(以分類變量的分級,以減少他們的水平)執行類似於Reduce number of levels for large categorical variables東西 下面的代碼工作中的R熊貓降低分類變量
DTsetlvls <- function(x, newl)
setattr(x, "levels", c(setdiff(levels(x), newl), rep("other", length(newl))))
我的數據框罰款:
df = pd.DataFrame({'Color': 'Red Red Blue'.split(),
'Value': [100, 150, 50]})
df['Counts'] = df.groupby('Color')['Value'].transform('count')
print (df)
Color Value Counts
0 Red 100 2
1 Red 150 2
2 Blue 50 1
我手動創建一個聚合列,然後基於此,標記較不頻繁的組,例如「藍色」作爲單個「其他」組。 但與簡潔的R代碼相比,這看起來很笨拙。這裏的正確方法是什麼?
可能[如何將「剩餘的」結果分組到上N以外的結果複製到「O」中thers「with pandas](http://stackoverflow.com/questions/19835746/how-to-group-remaining-results-beyond-top-n-into-others-with-pandas) –