2012-10-23 22 views
0

我正在將網站轉換爲PDF格式,但其中存在圖像,並且沿着所有圖像都有一個文本,點擊時會讓您自己進行圖像處理。如何刪除多個HTML文件中的類似片段?

我認爲這將是負責顯示文本的代碼,因爲我在其中一個文件中刪除了它,並且文本和鏈接不再顯示。

<div class="v1"><a target="_self" href="images/graphics/1.jpg">[View full size image]</a></div> 

問題是,大約還有200個包含這個相似文本的HTML文檔,只是改變了href

有沒有簡單的方法可以擺脫所有這一切,而不必一個個去?也許正則表達式爲sed

+0

是否使用任何IDE? –

+0

如果您想解析HTML,請使用[HTML解析器](http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags/1732454#1732454)。 – 2012-10-23 09:44:57

+0

我沒有使用任何IDE,我有一個網站,我想變成PDF;我其實並不太瞭解網絡編程。 –

回答

0

是的,正則表達式可能是最簡單的解決方案。如果僅僅是從你的所有文件中刪除這一行的問題,那麼我只是在編輯器中打開它們(Sublime Text 2做得很好)並執行正則表達式搜索和替換。以下搜索模式可能會工作:

<div class=\"v1\"><a target=\"_self\" href=\"[^"]+\">\[View full size image\]</a></div>

+0

謝謝你的正則表達式,我改變了一下與'sed'一起工作,但它工作。 –

1

如果表達式爲總是在一行上,唯一的區別是在hrefsed是一個可能的解決方案:

sed -e 's,<div class="v1"><a target="_self" href="[^"]*">\[View full size image\]</a></div>,,' 

我使用的備選分隔符,因此/不必在結束標記中轉義。不過,鏈接文本中的括號需要被轉義。

+0

謝謝你的回答,我標記爲接受另一個,因爲它是我閱讀和使用的那個;但是這個和另一個一樣有效。 –

相關問題