2015-06-03 59 views
0

我有一個csv文件,其中包含某些國家的貿易數據。該數據具有如下格式:Python中兩個字典中的值之間的交集

rep par commodity value 
USA GER 1   700 
USA GER 2   100 
USA GER 3   400 
USA GER 5   100 
USA GER 80  900 
GER USA 2   300 
GER USA 4   500 
GER USA 5   700 
GER USA 97  450 
GER UK  50  300 
UK USA 4   1100 
UK USA 80  200 
UK GER 50  200 
UK GER 39  650 

我打算做一個新的字典,並使用創建的字典,計算國家之間的共同交易的商品的總價值。 例如,考慮USA-GER之間的貿易,我打算檢查GER-USA是否在數據中,如果存在,則對所有國家的普通商品的價值進行彙總並做相同的處理。字典應該是這樣的:

Dic_c1c2_producs= 
{('USA','GER'): ('1','700'),('2','100'),('3','400'),('5','100'),('80','900'); 
('GER','USA'):('2','300'),('4','500'),('5','700'),('97','450') ; 
('GER','UK'):('50','300'); 
('UK','USA'): ('4','80'),('80','200'); 
('UK','GER'): ('50','200'),('39','650')} 

正如你可以看到,USA-GER和GER​​-USA有商品2和5在共同與這些商品的價值是(100 + 300)+(100 + 700) 。 對於USA-UK和UK-USA對,我們有普通商品:0,因此總交易也爲0。對於GER-UK和UK-GER,商品50是常見的,總交易量爲300 + 200。 最後,我想有這樣的:

Dic_c1c2_summation={('USA','GER'):1200;('GER','UK'):500; ('UK','USA'):0} 

任何幫助,將不勝感激。

除了我的職務,我已經寫了下面幾行:

from collections import defaultdict 
rfile = csv.reader(open("filepath",'r')) 
rfile.next() 
dic_c1c2_products = defaultdict(set) 
dic_c_products = {} 
country = set() 
for row in rfile : 
     c1 = row[0] 
     c2 = row[1] 
     p = row[2] 
     country.add(c1) 
for i in country : 
    dic_c_products[i] = set() 
rfile = csv.reader(open("filepath")) 
rfile.next() 
for i in rfile: 
    c1 = i[0] 
    c2 = i[1] 
    p = i[2] 
    v=i[3] 
    dic_c_products[c1].add((p,v)) 
    if not dic_c1c2_products.has_key((c1,c2)) : 
     dic_c1c2_products[(c1,c2)] = set() 
     dic_c1c2_products[(c1,c2)].add((p,v)) 

    else: 
      dic_c1c2_products[(c1,c2)].add((p,v)) 
c_list = dic_c_products.keys() 
dic_c1c2_productsummation = set() 
for i in dic_c1c2_products.keys(): 
    if dic_c1c2_products.has_key((i[1],i[0])): 
     for p1, v1 in dic_c1c2_products[(i[0],i[1])]: 
      for p2, v2 in dic_c1c2_products[(i[1],i[0])]: 
       if p1==p2: 
        summation=v1+v2 
        if i not in dic_c1c2_productsum.keys(): 
         dic_c1c2_productsum[(i[0],i[1])]=(p1, summation) 
        else: 
         dic_c1c2_productsum[(i[0],i[1])].add((p1, summation)) 
    else: 
      dic_c1c2_productsn[i] = " " 
+1

你嘗試過什麼到目前爲止? – user1269942

+0

@ user1269942我發佈了我的代碼。它雖然不起作用 – homayoun

回答

1
# save your data in a file called data 
import pandas as pd 
data = pd.read_csv('data', delim_whitespace=True) 
data['par_rep'] = data.apply(lambda x: '_'.join(sorted([x['par'], x['rep']])), axis=1) 
result = data.groupby(('par_rep', 'commodity')).filter(lambda x: len(x) >= 2).groupby(('par_rep'))['value'].sum().to_dict() 

result{'GER_UK': 500, 'GER_USA': 1200}

相關問題