2015-01-09 63 views
1

我有一個很大的文本文件充滿了主機訪問的網站。這是格式:如何在找到短語後剪切一行?

Host : Url 

很多網址是這樣的:

http://google.com/?aslkdfjasldkfjaskldfjalskdjfalksdfjalksdjfa;sdlkfjas;dklfjasdklfjasdklfjasdklfjJUSTABUNCHOFRANDOMSTUFFaslkdjfaslkdfjaklsdfjaklsdjfasdkfjasdfklj 

,這是很難看到原來的網站是什麼。如何使用grep來只能說明這一點:

Host : http://google.com 

我一直在到處找削減分隔符「.COM」後面的線,並不能找到一個解決方案。謝謝你的幫助!

獎勵:我忘了.net,.org和其他擴展名。這可能是比我想象的

回答

0

試試這一個比較棘手的問題:

grep -oP 'Host : http://[^/]+' 
         ^^^^ 

(所有字符,這不是斜槓)

,或者如果要指定.com

grep -oP 'Host : http://.*?\.com' 

另一種解決方案:

cut -d'/' -f1-3 
+0

有沒有一種方法,我可以忽略什麼後在每一行.com? – tthudium

+0

它的工作!謝謝! – tthudium

+0

如果答案符合您的需求,請不要忘記upvote/accept。檢查http://stackoverflow.com/help/why-vote和http://stackoverflow.com/help/accepted-answer –