如何刪除多個HTML文件中的類似片段？

我正在將網站轉換爲PDF格式，但其中存在圖像，並且沿着所有圖像都有一個文本，點擊時會讓您自己進行圖像處理。如何刪除多個HTML文件中的類似片段？

我認爲這將是負責顯示文本的代碼，因爲我在其中一個文件中刪除了它，並且文本和鏈接不再顯示。

<div class="v1"><a target="_self" href="images/graphics/1.jpg">[View full size image]</a></div>

問題是，大約還有200個包含這個相似文本的HTML文檔，只是改變了href。

有沒有簡單的方法可以擺脫所有這一切，而不必一個個去？也許正則表達式爲sed？

來源

2012-10-23 James Russell

是否使用任何IDE？ –

如果您想解析HTML，請使用[HTML解析器]（http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags/1732454#1732454）。 – 2012-10-23 09:44:57

我沒有使用任何IDE，我有一個網站，我想變成PDF;我其實並不太瞭解網絡編程。 –

是的，正則表達式可能是最簡單的解決方案。如果僅僅是從你的所有文件中刪除這一行的問題，那麼我只是在編輯器中打開它們（Sublime Text 2做得很好）並執行正則表達式搜索和替換。以下搜索模式可能會工作：

<div class=\"v1\"><a target=\"_self\" href=\"[^"]+\">\[View full size image\]</a></div>

來源

2012-10-23 09:39:49 Simon

謝謝你的正則表達式，我改變了一下與'sed'一起工作，但它工作。 –

如果表達式爲總是在一行上，唯一的區別是在href，sed是一個可能的解決方案：

sed -e 's,<div class="v1"><a target="_self" href="[^"]*">\[View full size image\]</a></div>,,'

我使用的備選分隔符,因此/不必在結束標記中轉義。不過，鏈接文本中的括號需要被轉義。

來源

2012-10-23 09:44:38 choroba

謝謝你的回答，我標記爲接受另一個，因爲它是我閱讀和使用的那個;但是這個和另一個一樣有效。 –

如何刪除多個HTML文件中的類似片段？

回答

相關問題