如何從文本文件中刪除重複條目？

我有一個文件，下面是它的外觀片段。我有這些關聯的分數的話。我怎樣才能刪除有較低分數的副本。我的意思是'新鮮'有兩個分數（7.781和5.750），我試圖用較低的分數去除'新鮮'和其他重複的詞條。這可能嗎？如何從文本文件中刪除重複條目？

['norwegian', 7.781341354126479] 
['rp', 7.7802465301013] 
['fresh', 7.7721646246757885] 
['tick', 7.7721646246757885] 
['wood', 7.7721646246757885] 
['fresh', 5.750711529372451] 
['tick', 4.750711529372451]

我已經嘗試做以下操作，將文件放到字典中，並將單詞和分數分開。

from collections import defaultdict 
d={} 
last_seen=set() 
with open("scored.txt","r") as filer: 

    for line in filer: 
      term, score= line.strip().split(",",1) 
      if line not in last_seen: 
        last_seen.add(line)

來源

2016-03-19 minks

你的代碼在哪裏？ – Vader

你的文件是否包含括號和逗號？另外，請發佈您嘗試過的代碼。 – mhawke

已添加。是的，該文件與上面顯示的格式完全相同。 – minks

在你的文本文件中存儲了python列表格式的字符串。您需要ast.literal_eval將字符串表示形式轉換爲列表。和簡單的dict來存儲團隊的分數。試試下面的代碼

import ast 
d={} 
with open("scored.txt","r") as filer: 
    for line in filer: 
      data = ast.literal_eval(line) 
      team,score = data[0],data[1] 
      if team not in d or d[team] < score: 
       d[team] = score

UPDATE
只需寫入隊組件文件，你可以使用

with open("ofile.txt","w") as f: 
    for team in d: 
     f.write(team)

這個片段會寫所有球隊的名字隨機順序文件。要保持初始秩序，您應該使用OrderedDict從collections。

import ast 
from collections import OrderedDict 
d=OrderedDict() 
... 
# the same code

來源

2016-03-19 10:38:36 kvorobiev

如果我想將團隊組件寫入輸出文件，我該怎麼做？ with open（「ofile.txt」，「w」）as t： for x in d [0]： print >> t，x – minks

@minks請參閱更新 – kvorobiev

我似乎注意到訂單不是被保存。關鍵是我已經對這些術語進行了排名。刪除重複項時，順序是隨機的。是否有可能將它們保持與以前相同的順序，因爲我只需要它們按排名順序排列？ – minks

如何從文本文件中刪除重複條目？

回答

相關問題