從文本文件中刪除空行和重複的行

我最近使用awk命令刪除重複的行和行之間的空格，但我沒有得到所需的輸出文件。從文本文件中刪除空行和重複的行

輸入文件：

a b 

a b 

c d 

c d 

e f 

e f

所需的輸出：（我想刪除重複的線和線之間的所有空格）

a b 
c d 
e f

我用下面的代碼：

awk '!x[$0]++' input file > output file

並得到了這個輸出：

a b 

c d 
e f

第一線和所有其餘部分之間的空間仍然是在輸出文件。請幫助，謝謝。

2016-02-04 amwalker

您的代碼失敗，因爲在查看第一個空行後，空行只會作爲重複項被刪除。 –

當您在兩者之間有獨特的線條時，是否要刪除重複的線條？我的意思是：當它是輸入文件的最後一行時，是否要刪除一行'a b'？ –

如果輸入的原始行順序很重要，那麼下面會不會爲你工作。如果您不關心訂單，請繼續閱讀。

對於我來說，AWK是不是這個問題的最佳工具。

既然你要使用awk中，我假設你是在一個類似Unix的環境，所以：

當我聽到「消除空白行」我認爲的「grep」。當我聽到「消除重複行」，我認爲「uniq」（這需要排序，雖然不是在你的例子中，因爲它已經排序）。

因此，給定一個文件'in.txt'下面產生所需的輸出。

grep -v "^[[:space:]]*$" in.txt | uniq

現在，如果您的真實數據沒有排序，那將無法工作。相反使用：

grep -v "^[[:space:]]*$" in.txt | sort -u

您的輸出可能與本例中的輸入順序不同。

2016-02-04 07:32:47 foundart

awk 'NF && !seen[$0]++' inputfile.txt > outputfile.txt

NF刪除僅包含製表符或空格的白線或線條。

!seen[$0]++刪除重複項。

2016-02-04 00:21:15

-2

cat test

A B

Çd

電子網

awk '$0 !~ /^[[:space:]]*$/' test

A B
A B
C^d
C^d
電子網
電子網

2016-02-04 07:24:39

這段代碼可以寫成'awk'NF'test'，但它無論如何都不能回答OP的問題。請參閱http://stackoverflow.com/a/35190319/1745001獲取答案。 –

回答