我有一個從PDF轉換爲HTML的文檔,以便在公司網站上使用,以便爲搜索引用和編制索引。我試圖格式化轉換後的文檔以滿足我的需求,並且這樣做時我正在嘗試清理從PDF文件(如頁碼,頁眉和頁腳)拖出的一些垃圾。幸運的是,所有這些需要刪除的行都在4行代碼塊中,不幸的是它們不完全相同,因此無法通過簡單的文字替換來刪除。這些行包含與頁面相關的增量數字。我如何從我的html文件中刪除以下示例。查找並用記事本替換++
Title<br>
10<br>
<hr>
<A name=11></a>Footer<br>
我已經嘗試了很多不同的正則表達式的嘗試,但作爲我在這方面的技能是有限的,我找不到正確的語法。我確定我錯過了一些相當簡單的事情,因爲它似乎只需要代碼中的兩個數字的通配符替換,剩下的就是文字。
任何幫助apprciated
另一個html可以幫助管理哪個部分永遠不會改變:) – 2010-06-11 11:43:13