查找重複的記錄只有文本情況差異

我有一個帶有8M條目/記錄的URL的日誌文件。我想查找重複的URL（相同的URL），唯一的區別是它們的類型/文本大小寫。查找重複的記錄只有文本情況差異

實施例：

origin-www.example.com/this/is/hard.html 
origin-www.example.com/this/is/HARD.html 
origin-www.example.com/this/is/Hard.html

在這種情況下，有三個重複區分大小寫。

輸出應該只是計數-c和帶有重複項的新文件。

使用典型awk '!seen[$0]++' file特技與tolower()或toupper()相結合，使所有的行是在相同的情況下：

$ awk '!seen[tolower($0)]++' file 
origin-www.example.com/this/is/hard.html

對於不同的輸出和計數器任何，提供一個有效的所需的輸出。

2016-11-10 14:07:09 fedorqui

取決於**文件的重複**在這裏，它可以是： '$ awk'seen [tolower（$ 0）] ++'input_file> output'獲取所有非唯一值（無第一場比賽） – woockashek

是的，我現在正在嘗試這個。永遠。這是一個3GB的txt文件。 –

@Marc試用一個示例文件，然後看看你是否喜歡輸出。一旦你確定了這一點，就去對付這個大文件。 – fedorqui

回答