我原來問過這個問題:Regular Expression in gVim to Remove Duplicate Domains from a List如何從大量URL中刪除重複域?正則表達式或否則
不過,我意識到我可能會更容易找到工作解決方案,如果我在什麼解決的方法,我願意接受條款「開闊了我的範圍」。
因此,我將改寫我的問題&也許我會得到一個更好的解決方案......這裏有雲:
我有一個.txt文件的URL的大名單(我運行Windows Vista 32位),我需要刪除重複的DOMAINS(以及整個對應的URL到每個副本),同時留下每個域的第一次出現。在這個特定的文件中大約有6,000,000個URL,格式如下(這些URL顯然沒有空格,我只需要這樣做,因爲我沒有足夠的帖子來發布許多「實時」URL ):
http://www.exampleurl.com/something.php http://exampleurl.com/somethingelse.htm http://exampleurl2.com/another-url http://www.exampleurl2.com/a-url.htm http://exampleurl2.com/yet-another-url.html http://exampleurl.com/ http://www.exampleurl3.com/here_is_a_url http://www.exampleurl5.com/something
無論該解決方案是,使用上述的輸入輸出文件,應該是這樣的:
http://www.exampleurl.com/something.php http://exampleurl2.com/another-url http://www.exampleurl3.com/here_is_a_url http://www.exampleurl5.com/something
你注意到沒有重複的域名,現在,它留下的第一背後它遇到的情況。
如果有人能幫助我,無論是使用正則表達式還是某些我不知道的程序,那將會很棒。
雖然我會說這個,但除了Windows操作系統之外,我沒有經驗使用其他任何東西,因此需要一個除Windows程序以外的解決方案,可能需要一點「寶貝步」才能說出來(如果有人是善良的足以做到這一點)。