我想修改一個腳本,以便它將從文本文件中刪除重複的行,只使用該行的標題部分。刪除重複的行只有標題
爲了澄清文本文件中的行是這個樣子:
Title|Image Url|Description|Page Url
在腳本執行刪除重複的那一刻,但它通過閱讀整條生產線,而不僅僅是第一部分這樣做。文件中的所有行不會完全相同,但有一些會非常相似。
我想要刪除包含相同「標題」的所有行,而不管該行的其餘部分包含哪些行。
這是我一起工作的腳本:
import sys
from collections import OrderedDict
infile = "testfile.txt"
outfile = "outfile.txt"
inf = open(infile,"r")
lines = inf.readlines()
inf.close()
newset = list(OrderedDict.fromkeys(lines))
outf = open(outfile,"w")
lstline = len(newset)
for i in range(0,lstline):
ln = newset[i]
outf.write(ln)
outf.close()
到目前爲止,我已經用.split()
分裂列表行嘗試。我也嘗試過.readline(lines[0:25])
,希望能夠使用字符數限制來達到預期的結果,但目前爲止還沒有運氣。我似乎也無法找到關於我確切問題的任何文檔,所以我被卡住了。
我正在使用Windows 8和Python 2.7.9這個項目,如果有幫助。
謝謝!這正是我需要的。 – lostintranslation