0
我有一個包含*.txt
文件的文件夾。我想定期檢查這些文件是否有重複的URL。如何檢查重複網址的文本文件夾
其實,我救我的書籤在這些文件中,總是有至少兩條線,如:
www.domain.com
Quite a popular domain name
碰巧,我挽救了相同的URL與另一個說明,如:
www.domain.com
I should buy this domain
Whenever I happen to have enough money for this
所有條目由單個空白行分隔。有時這些網址爲降價格式:
[domain.com](www.domain.com)
如何抓取重複網址的文件夾?
我迄今發現的唯一的解決方案是結合cat
與它的uniq
管:
cat folder/* |sort|uniq|less > dupefree.txt
的問題,這就是:
- 這並不只檢查全相同的行 - 降價網址忽略並且連接的評論丟失
- 我不想輸出已清除的文本文件,但只需要提示哪些URL是重複的
我該如何做適當的重複檢查?