我有一個文件,每天有83個氣象站的降水數據,每個站101年。我想確定每個電臺每年NaN的數量。在Python中填寫缺失的行爲NaN
作爲一個縮短的例子,假設我只有一個站和只關心約1年的數據,2009年
如果我有這樣的:
station_id year month 1 2 3
210018 2009 1 5 6 8
210018 2009 2 NaN NaN 6
210018 2009 12 8 5 6
我想這樣的:
station_id year month 1 2 3
210018 2009 1 5 6 8
210018 2009 2 NaN NaN 6
210018 2009 3 NaN NaN NaN
210018 2009 4 NaN NaN NaN
210018 2009 5 NaN NaN NaN
210018 2009 6 NaN NaN NaN
210018 2009 7 NaN NaN NaN
210018 2009 8 NaN NaN NaN
210018 2009 9 NaN NaN NaN
210018 2009 10 NaN NaN NaN
210018 2009 11 NaN NaN NaN
210018 2009 12 8 5 6
所以我的車站需要12行12個月和一年一起去每一個。我再次以真實的例子展現101年。
我想使用此代碼:
df_indexed=df.set_index(['year'])
new_index=np.arange(1910,2011,1)
idx=pd.Index(new_index)
df2=df_indexed.reindex(idx, method=None)
但它返回一個長的錯誤與
ValueError: cannot reindex from a duplicate axis
我希望是有道理的結束。
非常感謝! – spotter 2015-02-23 21:15:30