0
如何從文本中刪除鏈接?我認爲我應該使用sed命令,但我不知道確切的語法。刪除文本鏈接
如何從文本中刪除鏈接?我認爲我應該使用sed命令,但我不知道確切的語法。刪除文本鏈接
這將刪除一切.com
或.org
結束:
sed 's/\s\?\w\+\.\(com\|org\)//g' foo.txt
輸入:
lallalalala blabla.com babababab hehehe.org.
輸出:
lallalalala babababab.
編輯:這裏是POSIX標準。我還添加了一些更多的字符匹配情況下,有可能是子域或協議(http://
)
sed 's/[[:space:]]\?[A-Za-z0-9_\/\:\.-]\+\.\(com\|org\)//g' foo.txt
另外請注意,這並不能掩蓋該域名後綴後引用資源的所有可能的URL字符的URL( example.com/query?foo=bar
)。
你應該舉例說明你有什麼和你想要什麼。你的意思是HTML鏈接?你想對文件中其餘的HTML做什麼?您應該使用Perl或Python庫或其他專門用於處理HTML的工具。正則表達式[不足](http://stackoverflow.com/q/1732348/26428#1732454)。 – 2010-11-24 17:22:57
[查找鏈接並將它們從HTML中移除]的可能重複(http://stackoverflow.com/questions/1784507/find-links-and-remove-them-from-html) – 2010-11-24 17:24:03