Python或命令行實用程序 - 排序和過濾文件？

給出的形式的數據：Python或命令行實用程序 - 排序和過濾文件？

a b 1.1 
c d 2.3 
b a 1.1

是否有可能基於該thired列進行排序這樣的文件，並刪除其中的第三列中的條目是重複的線條，使得輸出將是：

a b 1.1 
c d 2.3

，或者

c d 2.3 
b a 1.1

。

我能夠僅使用python，R或命令行實用程序在一組非常大的文件上執行此任務。

謝謝！

來源

2011-08-26 Darren J. Fitzpatrick

你如何決定其中的「1.1」行放棄？ – MattH

丟棄哪個並不重要。 –

的Unix sort應該能夠做到爲您的工作：

cat file | sort -u -k3,3n 
a b 1.1 
c d 2.3

cat file | sort -u -k3,3rn 
c d 2.3 
a b 1.1

來源

2011-08-26 21:35:35 MattH

這有什麼用？ – Dominik

@Dominik：它不怎麼幫忙？ – sehe

@Dominik：OP顯示了兩個樣本輸出，每個排序方向一個，並且OP已經說過丟棄的重複行並不重要。我想我已經證明了OP的要求。 – MattH

f = open('text.txt','rb') 
filter = [] 
rows = [] 
for line in f: 
    line = line.replace('\r\n','') 
    data = line.split(' ') 
    if len(data) >= 3: 
     if not data[2] in filter: 
      filter.append(data[2]) 
      rows.append(data) 
f.close() 

f = open('output.txt','wb') 
for row in rows: 
    f.write(row[0] + ' ' + row[1] + ' ' + row[2] + '\r\n') 
f.close()

來源

2011-08-26 21:45:11 Sinzor

Python或命令行實用程序 - 排序和過濾文件？

回答

相關問題