我正在將網站轉換爲PDF格式,但其中存在圖像,並且沿着所有圖像都有一個文本,點擊時會讓您自己進行圖像處理。如何刪除多個HTML文件中的類似片段?
我認爲這將是負責顯示文本的代碼,因爲我在其中一個文件中刪除了它,並且文本和鏈接不再顯示。
<div class="v1"><a target="_self" href="images/graphics/1.jpg">[View full size image]</a></div>
問題是,大約還有200個包含這個相似文本的HTML文檔,只是改變了href
。
有沒有簡單的方法可以擺脫所有這一切,而不必一個個去?也許正則表達式爲sed
?
是否使用任何IDE? –
如果您想解析HTML,請使用[HTML解析器](http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags/1732454#1732454)。 – 2012-10-23 09:44:57
我沒有使用任何IDE,我有一個網站,我想變成PDF;我其實並不太瞭解網絡編程。 –