combine_first和fillna有什麼區別？

這兩個功能對我來說似乎相當。你可以看到他們在下面的代碼中完成了相同的目標，因爲列c和d是相等的。那麼我應該什麼時候使用一個呢？combine_first和fillna有什麼區別？

下面是一個例子：

import pandas as pd 
import numpy as np 

df = pd.DataFrame(np.random.randint(0, 10, size=(10, 2)), columns=list('ab')) 
df.loc[::2, 'a'] = np.nan

 a b 
0 NaN 4 
1 2.0 6 
2 NaN 8 
3 0.0 4 
4 NaN 4 
5 0.0 8 
6 NaN 7 
7 2.0 2 
8 NaN 9 
9 7.0 2

這是我的出發點。現在，我將增加兩列，一個使用combine_first和一個使用fillna，他們會產生相同的結果：

df['c'] = df.a.combine_first(df.b) 
df['d'] = df['a'].fillna(df['b'])

 a b c d 
0 NaN 4 4.0 4.0 
1 8.0 7 8.0 8.0 
2 NaN 2 2.0 2.0 
3 3.0 0 3.0 3.0 
4 NaN 0 0.0 0.0 
5 2.0 4 2.0 2.0 
6 NaN 0 0.0 0.0 
7 2.0 6 2.0 2.0 
8 NaN 4 4.0 4.0 
9 4.0 6 4.0 4.0

信貸對這個問題的數據集：Combine Pandas data frame column values into new column

來源

2017-10-10 kbball

我對熊貓不是很熟悉，但看起來你對[fillna]有更多的控制（https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.fillna.html）而[combine_first]（https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.combine_first.html）是一次性完成交易 – Wondercricket

combine_first旨在用於存在非重疊索引時。它將有效地填充空值，併爲第一個不存在的索引和列提供值。所有的指標和列都包括在結果

現在，如果我們fillna

dfa.fillna(dfb) 

    w x y 
a 1 2.0 3 
b 4 1.0 5 # 1.0 filled in from `dfb`

通知從dfb沒有新的列或索引包含

dfa = pd.DataFrame([[1, 2, 3], [4, np.nan, 5]], ['a', 'b'], ['w', 'x', 'y']) 
dfb = pd.DataFrame([[1, 2, 3], [3, 4, 5]], ['b', 'c'], ['x', 'y', 'z']) 

dfa.combine_first(dfb) 

    w x y z 
a 1.0 2.0 3.0 NaN 
b 4.0 1.0 5.0 3.0 # 1.0 filled from `dfb`; 5.0 was in `dfa`; 3.0 new column 
c NaN 3.0 4.0 5.0 # whole new index

通知。我們只填寫了空值，其中dfa共享索引和列信息。

在你的情況，你對一列使用fillna和combine_first具有相同索引。這些轉換成實際上相同的東西。

來源

2017-10-10 21:40:33 piRSquared

combine_first和fillna有什麼區別？

回答

相關問題