標記具有相同名稱的條目？

我正在處理人們輸入其姓名和一些聯繫信息的數據。但是，由於他們無法爲某些字段輸入多個條目，因此有些人多次輸入其名稱，導致「重複」條目...標記具有相同名稱的條目？

我試圖用同一用戶標記重複條目一個變量「標誌」。

對於每一行，我想要發生的是，如果行中的名稱條目與下一行中的名稱條目不相同，則標誌條目應該增加1。

我該怎麼做？

這是代碼我目前有：

# FLAG 2 

import csv 

myjson = [] 

with(open("ieca_first_col_fake_text.txt", "rU")) as f: 
    sheet = csv.DictReader(f,delimiter="\t") 
    sheet.fieldnames.append('flag') 
    print sheet.fieldnames 
    for row in sheet: 
     myjson.append(row) 

flag_counter = 0 
myjson[0]['flag'] = flag_counter 

for i in range(len(myjson)-1): 
    if myjson[i]['name'] != myjson[i+1]['name']: 
     myjson[i+1]['flag'] = flag_counter + 1 
    else: 
     myjson[i]['flag'] = flag_counter 

for i in range(len(myjson)): 
    print myjson[i]

這是示例性數據：

name phone email website area degree 
Diane Grant Albrecht M.S.   
Lannister G. Cersei M.A.T., CEP 111-222-3333 [email protected] www.got.com 
Argle D. Bargle Ed.M.   
Sam D. Man Ed.M. 000-000-1111 [email protected] www.daManWithThePlan.com 
Sam D. Man Ed.M.    
Sam D. Man Ed.M. 111-222-333  [email protected] www.daManWithThePlan.com 
D G Bamf M.S.   
Amy Tramy Lamy Ph.D.

而這是從在例如數據進行操作而產生的輸出：

['name', 'phone', 'email', 'website', 'flag'] 
{'website': '', 'phone': '', 'flag': 0, 'name': 'Diane Grant Albrecht M.S.', 'email': ''} 
{'website': 'www.got.com', 'phone': '111-222-3333', 'flag': 1, 'name': 'Lannister G. Cersei M.A.T., CEP', 'email': '[email protected]'} 
{'website': '', 'phone': '', 'flag': 1, 'name': 'Argle D. Bargle Ed.M.', 'email': ''} 
{'website': 'www.daManWithThePlan.com', 'phone': '000-000-1111', 'flag': 0, 'name': 'Sam D. Man Ed.M.', 'email': '[email protected]'} 
{'website': None, 'phone': '', 'flag': 0, 'name': 'Sam D. Man Ed.M.', 'email': None} 
{'website': 'www.daManWithThePlan.com', 'phone': '111-222-333', 'flag': None, 'name': 'Sam D. Man Ed.M.', 'email': ' [email protected]'} 
{'website': '', 'phone': '', 'flag': 1, 'name': 'D G Bamf M.S.', 'email': ''} 
{'website': '', 'phone': '', 'flag': 1, 'name': 'Amy Tramy Lamy Ph.D.', 'email': ''}

請注意，標誌不符合所需的模式。

這裏是一個理想的輸出（請注意標誌項的差異）：

['name', 'phone', 'email', 'website', 'flag'] 
{'website': '', 'phone': '', 'flag': 0, 'name': 'Diane Grant Albrecht M.S.', 'email': ''} 
{'website': 'www.got.com', 'phone': '111-222-3333', 'flag': 1, 'name': 'Lannister G. Cersei M.A.T., CEP', 'email': '[email protected]'} 
{'website': '', 'phone': '', 'flag': 2, 'name': 'Argle D. Bargle Ed.M.', 'email': ''} 
{'website': 'www.daManWithThePlan.com', 'phone': '000-000-1111', 'flag': 3, 'name': 'Sam D. Man Ed.M.', 'email': '[email protected]'} 
{'website': None, 'phone': '', 'flag': 3, 'name': 'Sam D. Man Ed.M.', 'email': None} 
{'website': 'www.daManWithThePlan.com', 'phone': '111-222-333', 'flag': 3, 'name': 'Sam D. Man Ed.M.', 'email': ' [email protected]'} 
{'website': '', 'phone': '', 'flag': 4, 'name': 'D G Bamf M.S.', 'email': ''} 
{'website': '', 'phone': '', 'flag': 5, 'name': 'Amy Tramy Lamy Ph.D.', 'email': ''}

來源

2013-07-08 goldisfine

編輯：我THS循環workes（如預期輸出）：

for i in range(len(myjson)-1): 
    if myjson[i]['name'] != myjson[i+1]['name']: 
     print "not same" ,myjson[i]['name'] ,' ', myjson[i+1]['name'] 
     flag_counter = flag_counter + 1 
     myjson[i+1]['flag'] = flag_counter 
    else: 
     print 'equal', myjson[i]['name'] ,' ', myjson[i+1]['name'] 
     myjson[i]['flag'] = flag_counter

注意，我必須手工格式化csv文件（標籤不是標籤，而是空格）。確保它在你的文件中是正確的。名字必須是完全正確的，沒有額外的空間允許

但我不確定這是否是唯一的錯誤，因爲有許多危險的'off-by-one'陷阱。如果它仍然不起作用，只需更新您的輸出和代碼，我們就會看到！

來源

2013-07-08 19:39:55 user27564

不要以爲就是這樣。 – goldisfine

爲什麼，flag_counter總是爲零，所以如果它是一個新名稱，則分配0 + 1，否則爲0.但是你說得對，這很可能不是唯一的錯誤...... – user27564

標記具有相同名稱的條目？

回答

相關問題