2016-11-10 43 views
0

我有一個帶有8M條目/記錄的URL的日誌文件。我想查找重複的URL(相同的URL),唯一的區別是它們的類型/文本大小寫。查找重複的記錄只有文本情況差異

實施例:

origin-www.example.com/this/is/hard.html 
origin-www.example.com/this/is/HARD.html 
origin-www.example.com/this/is/Hard.html 

在這種情況下,有三個重複區分大小寫。

輸出應該只是計數-c和帶有重複項的新文件。

回答

3

使用典型awk '!seen[$0]++' file特技與tolower()toupper()相結合,使所有的行是在相同的情況下:

$ awk '!seen[tolower($0)]++' file 
origin-www.example.com/this/is/hard.html 

對於不同的輸出和計數器任何,提供一個有效的所需的輸出。

+1

取決於**文件的重複**在這裏,它可以是: '$ awk'seen [tolower($ 0)] ++'input_file> output'獲取所有非唯一值(無第一場比賽) – woockashek

+0

是的,我現在正在嘗試這個。永遠。這是一個3GB的txt文件。 –

+0

@Marc試用一個示例文件,然後看看你是否喜歡輸出。一旦你確定了這一點,就去對付這個大文件。 – fedorqui