2015-11-06 80 views
2

我有年度數據。這些年份中的每一年都存儲在一個單獨的數據框中。 某些信息在某些年份缺失,但可能在其他年份可用。如果在失蹤的一年之前和之後觀察到信息,我只能相信這些信息。 例如: -如果滯後和潛伏期相同,則替換缺失值

Index  Identifier  Date  Owner 
1   A    2005  F 
2   A    2006  NaN 
3   A    2007  F 
4   B    2005  G 
5   B    2006  NaN 
6   B    2007  NaN 
7   B    2008  G 
8   B    2009  NaN 
9   B    2010  F 
10   C    2006  H 
11   C    2007  NaN 
12   C    2008  NaN 

這到底應該是這樣的:

Index  Identifier  Date  Owner 
1   A    2005  F 
2   A    2006  F 
3   A    2007  F 
4   B    2005  G 
5   B    2006  G 
6   B    2007  G 
7   B    2008  G 
8   B    2009  NaN 
9   B    2010  F 
10   C    2006  H 
11   C    2007  NaN 
12   C    2008  NaN 

所以,只有當我觀察同一個失蹤一年前後應該有一個變化。如果我以後沒有觀察到任何事情,或者我觀察到不同的事情,我不應該改變。實際數據每年約有1000萬觀測值。所以循環會非常低效。

我目前的解決辦法是:

framestot=(df2005, df2006, df2007, df2008, df2009, df2010) 
df=pd.concat(framestot, ignore_index=True) 
df=df.sort(columns='date', ascending=True, kind='quicksort') 
df['lag'] = df.Owner 
df['lead'] = df.Owner 
df['lag'] = df.groupby(['Identifier'])['lag'].transform(lambda grp: grp.fillna(method='ffill'))  
df['lead'] = df.groupby(['Identifier'])['lead'].transform(lambda grp: grp.fillna(method='bfill')) 
df.loc[df['Owner'].isnull() & df['lead'] == df['lag'],'Owner'] = df.lag 

這似乎是一個非常低效的解決它的方法。有沒有辦法直接調用這些信息? 如果我沒有弄錯,這也需要什麼是第一個非缺失的滯後和領先。我可以限制嗎?例如,如果我只想在最近兩年和未來兩年更換它們,它們是相同的。如果數據來自兩年多前,我保留缺失的值。

+0

有一個'limit' 'fillna'的參數,所以如果你想限制填充方法,你可以通過'limit = 2' – EdChum

+0

謝謝,這絕對解決了第二個問題 – Peter

回答

0

一個簡單的解決方案,但不是特別有效是比較向前填充和向後填充:

In [11]: df['Owner'].ffill() 
Out[11]: 
0  F 
1  F 
2  F 
3  G 
4  G 
5  G 
6  G 
7  G 
8  F 
9  H 
10 H 
11 H 
Name: Owner, dtype: object 

In [12]: ff = df['Owner'].ffill() 

In [13]: ff[ff == df['Owner'].bfill()] 
Out[13]: 
0 F 
1 F 
2 F 
3 G 
4 G 
5 G 
6 G 
8 F 
9 H 
Name: Owner, dtype: object 

和剪接回這些原來的柱:

In [14]: df['Owner'] = ff[ff == df['Owner'].bfill()] 

In [15]: df 
Out[15]: 
    Index Identifier Date Owner 
0  1   A 2005  F 
1  2   A 2006  F 
2  3   A 2007  F 
3  4   B 2005  G 
4  5   B 2006  G 
5  6   B 2007  G 
6  7   B 2008  G 
7  8   B 2009 NaN 
8  9   B 2010  F 
9  10   C 2006  H 
10  11   C 2007 NaN 
11  12   C 2008 NaN