2010-06-11 99 views
0

我有一個從PDF轉換爲HTML的文檔,以便在公司網站上使用,以便爲搜索引用和編制索引。我試圖格式化轉換後的文檔以滿足我的需求,並且這樣做時我正在嘗試清理從PDF文件(如頁碼,頁眉和頁腳)拖出的一些垃圾。幸運的是,所有這些需要刪除的行都在4行代碼塊中,不幸的是它們不完全相同,因此無法通過簡單的文字替換來刪除。這些行包含與頁面相關的增量數字。我如何從我的html文件中刪除以下示例。查找並用記事本替換++

Title<br> 
10<br> 
<hr> 
<A name=11></a>Footer<br> 

我已經嘗試了很多不同的正則表達式的嘗試,但作爲我在這方面的技能是有限的,我找不到正確的語法。我確定我錯過了一些相當簡單的事情,因爲它似乎只需要代碼中的兩個數字的通配符替換,剩下的就是文字。

任何幫助apprciated

+0

另一個html可以幫助管理哪個部分永遠不會改變:) – 2010-06-11 11:43:13

回答

1

搜索&取代npp很奇怪。雖然文檔中提到:

從v4.9開始,簡單查找/替換(控制+ h)已更改,允許使用\ r \ n和\ t在正則表達式模式和擴展模式下。

我更新到最新版本,但它不起作用。使用擴展模式可以查找換行符,但我無法指定通配符。

但是,您可以使用來克服此問題。

  • 準備搜索會發現一個獨特的通道(如Title<br>\r\n,在這裏你可以使用擴展模式)
  • 開始錄製宏
  • 按F3使用搜索
  • 紀念四行並刪除它們
  • 停止錄製宏...完成!

只是重播它,它會刪除你想刪除的內容。

+0

非常感謝這是我的問題的簡單解決方案。我絕對認爲這種簡單的移除方案對宏來說更容易 – Levi 2010-06-11 12:26:53

0

如果我明白你的要求正確這種模式您的字符串匹配:

Title<br>(?)\n([0-9]+)<br>(?)\n<hr>(?)\n<A name=([0-9]+)></a>Footer<br> 

我用the Regex Coach嘗試複雜的正則表達式模式。其他實用程序可用。

編輯

由於我不使用記事本+ +我不能肯定,這種模式會爲你工作。如果發生這種情況,我們抱歉。 (我自己是一個TextPad人,並且它可以使用該工具)。

+0

記事本++不幸有一個壞的正則表達式解析器 - 它不能識別'\ n' - 至少對我來說,版本5.6.8 – tanascius 2010-06-11 12:06:28

+0

Notepad ++不會識別如果你的文件的行尾是'\ r \ n','\ n'在文本/代碼的行之間。我在LF終止的行文件上用'\ n'自己並沒有遇到麻煩。 – BoltClock 2010-06-11 12:16:42