我有一些html文件,並且想要提取一些標籤之間的內容: 頁面標題 某些標記的內容在這裏。查找HTML文件中的特定標籤
<p>A paragraph comes here</p>
<p>A paragraph comes here</p><span class="more-about">Some text here</span><p class="en-cpy">Copyright © 2012 </p>
我只是想這些標籤:頭,對 但在第二段可以看出,最後一個標籤是與P開始,但不是我的願望標籤,我不希望它的內容。 我用下面的腳本提取我想要的文字,但我不能篩選出標記,如最後一次在我的例子....怎麼可能只提取<p>
標籤?
grep "<p>" $File | sed -e 's/^[ \t]*//'
我要補充的是,最後的標籤(這是我不希望出現在輸出)是我所期望的標籤之一(這是在我的例子),並使用grep命令之後的所有該行的內容將返回作爲輸出...(這是我的問題)
XSLT是一種通用工具(和語言)。 Google for'xsltproc'的例子。 – tripleee
如果您擁有有效的XHTML(即有效的XML),那麼這絕對是一條更簡單的路線。 –
哇,XSLT似乎是一個奇怪的工具,但我沒有時間。我必須在1小時內完成它,似乎我必須花時間學習如何創建xsl文件。 – Hakim