我有大約350個文本文件(每個文件大約75MB)。我正在嘗試合併所有文件並刪除重複的條目。該文件的格式如下:合併多個文本文件並刪除重複項
ip1,dns1
ip2,dns2
...
我寫了一個小的shell腳本來做到這一點
#!/bin/bash
for file in data/*
do
cat "$file" >> dnsFull
done
sort dnsFull > dnsSorted
uniq dnsSorted dnsOut
rm dnsFull dnsSorted
我經常這樣處理,並想知道如果有什麼我可以做些什麼來改善當我運行它時下一次處理。我接受任何編程語言和建議。謝謝!
你也可以給排序-ma嘗試 - >它將排序單個文件並相應地合併它們,因此應該節省相當多的時間.... -m選項可用espl用於這種情況...即排序-m文件* | uniq -u – nsd