0
我有一個帶有8M條目/記錄的URL的日誌文件。我想查找重複的URL(相同的URL),唯一的區別是它們的類型/文本大小寫。查找重複的記錄只有文本情況差異
實施例:
origin-www.example.com/this/is/hard.html
origin-www.example.com/this/is/HARD.html
origin-www.example.com/this/is/Hard.html
在這種情況下,有三個重複區分大小寫。
輸出應該只是計數-c和帶有重複項的新文件。
取決於**文件的重複**在這裏,它可以是: '$ awk'seen [tolower($ 0)] ++'input_file> output'獲取所有非唯一值(無第一場比賽) – woockashek
是的,我現在正在嘗試這個。永遠。這是一個3GB的txt文件。 –
@Marc試用一個示例文件,然後看看你是否喜歡輸出。一旦你確定了這一點,就去對付這個大文件。 – fedorqui