將兩個熊貓數據框中的列進行比較並分出差異

我有兩個csv文件，都包含在day1和day2上發佈的推文。我想比較推文的作者來發現新用戶。將兩個熊貓數據框中的列進行比較並分出差異

day1.csv看起來是這樣的：

day2.csv看起來是這樣的：

使用day1.csv爲支點...我想比較的作者的ID。。任何新的作者（即day2.csv中的作者，但不在day1.csv中），我輸出作者的ID。請問我怎樣才能做到這在Python 3.XX

來源

2017-03-21 JEFF Ansah

你可以那樣做：

import pandas as pd 
df1=pd.DataFrame({'authorID':['12','34','56']}) 
df2=pd.DataFrame({'authorID':['12','56','78','97']}) 
original_users=set(df1[['authorID']].values.reshape(-1)) 
for i in df2[['authorID']].values.reshape(-1): 
    if i not in original_users: 
     print(i)

然後df1是

和df2是

的輸出爲

78 
97

請注意，df1[['authorID']].values.reshape(-1)使您能夠將列轉換爲您可以迭代的列表。對於這個特定的例子， df1[['authorID']].values.reshape(-1)是array(['12', '34', '56'], dtype=object)。將這個數組轉換爲set是爲了提高複雜性。（？f.readlines()）

來源

2017-03-21 00:54:53

如果您有加載iterables兩個CSV文件，那麼你可以簡單地使用設定的差與不在day1.csv day2.csv的元素返回一組新：

>>> day1 = ['authorID',451223,120346,122355,787456] 
>>> day2 = ['authorID',451223,025660,122355,022000] 
>>> set(day2) - set(day1) 
set([11184, 9216])

或

>>> set(day2).difference(day1) 
set([11184, 9216])

來源

2017-03-21 01:05:11 Roundel

只是另一種方式來比較兩組authorID S之間的區別：

>>> old = {'451223', '120346', '122355', '787456'} 
>>> new = {'451223', '025660', '122355', '022000'} 
>>> {x for x in new if x not in old} 
{'025660', '022000'}

來源

2017-03-21 01:29:47 blacksite

假設day1和day2是dataframes ...使用merge與indicator參數設置爲True

day1.merge(day2, 'outer', indicator=True).query('_merge != "both"') 

    authorID  _merge 
1 120346 left_only 
3 787456 left_only 
4  25660 right_only 
5  22000 right_only

來源

2017-03-21 06:34:41 piRSquared

將兩個熊貓數據框中的列進行比較並分出差異

回答

相關問題