2015-11-03 46 views
-2

在Linux中,執行以下命令下載的「第一個星期一」的文章:使用SED編輯HTML

wget -O first_monday.html http://www.uic.edu/htbin/cgiwrap/bin/ojs/index.php/fm/article/view/3156/2747 

使用sed和正則表達式來first_monday.html編輯如下:

刪除空/空白段落,如果有的話。 (HTML段落開始標記爲<p>和結束標記是</p>

<p>This is some text in a paragraph.</p> 

段落是空的,如果沒有什麼或者只在<p></p>之間

刪除所有圖像空格或製表符(在HTML中,圖像與<img>標籤定義示例:

<img src="html5.gif" alt="The official HTML5 Icon"> 

生成的文件應該仍然是有效的HTML文件,在標準web瀏覽器可顯示。對於你的答案,複製/粘貼你用來回答這個問題的命令。例如,如果你使用了類似的命令

sed -iback -e 's|<p>[[:space:]]*</p>||g' first_monday.html 

那麼你會粘貼命令,以及你在回答這個領域的任何人。

+1

不要使用SED:http://stackoverflow.com/a/1732454/7552 –

+0

[除XHTML自足標籤的正則表達式匹配開放標籤](可能的重複http://stackoverflow.com/問題/ 1732348 /正則表達式匹配開放標籤除了xhtml自包含標籤) –

+1

氣味像功課。你有什麼嘗試?你有什麼問題? – choroba

回答

0

首先,您可以使用刪除空段落標記以下命令

sed -i 's|<p>[[:space:]]*</p>||g' first_monday.html 

接下來,你的形象標籤也被刪除使用命令,如下所示同樣的方式;

sed -i 's|<img /*>||g' first_monday.html