2013-01-05 45 views
0

我已經將我的書籤從FF中導出到一個html文件中,但它太龐大而且複雜,所以我需要從中刪除一些firefox行,以使它更輕鬆和簡單。如何使用Notepad ++從html文件中替換/刪除特定的字符串?

我可以在記事本++中替換基本的東西,但我想我確實需要一些操作符爲此,我不知道如何使其正確工作。

例如這裏是從文件包含一個鏈接到Logodesignlove行:

<A HREF="http://www.logodesignlove.com/" ADD_DATE="1256428672" LAST_MODIFIED="1256428672" ICON_URI="http://www.logodesignlove.com/favicon.ico" ICON="data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAABAAAAAQCAYAAAAf8/9hAAABDUlEQVQ4jWNgGF7gy9a9iS88Yw4803F49a6oYfHn589FGRgYGD4vWZv70iX80HMrv9MfF6zMw6r5Q/ukjkcMUv+R8TNzn+sv/eNPoou/753ZhKL5x8OHSo/Y5P+gK8SFH3Io//j+7Jk8wum79scQqxmGv2zcFQM34Ouhk96kGvBp5cZUuAGfnz8Xfcil8otoA5hl//+8cU8PJRxeJxZtJtaAlz5xJxkYGBhRDPh1/77BQ26V7wQDkFPp+9crN02xRuWnxavL8RrAIvv/8+otWXgT0/vu6ZMfMclgtZmgZrhLlm9MfSKi/Rmm+bm517VvF69ZEKUZBr68fCn+oWNK68cpC+qePXvGRZJmUgAAVs4XULOHB/oAAAAASUVORK5CYII=">Logo Design Love</A> 

我需要刪除所有那些我不關心標籤有關,如LAST_MODIFIED =「1256428672」,ICON_URI =」一堆數字「ICON =」一堆字符「等 當然,我需要刪除列表中每個鏈接中的所有標籤。

所以我想使用類似於「查找所有標籤LAST_MODIFIED =」anynumbers「並將其替換爲」/刪除它「 - 它雖然不起作用。

Examle應該怎麼樣:
<A HREF="http://www.logodesignlove.com/">Logo Design Love</A>

到目前爲止我刪除LAST_MODIFIED和ADD_DATE線路感謝亞歷山大。所以LAST_MODIFIED =「\ d +」工作得很好。但ICON和ICON_URI仍然存在。我試過ICON =「\ w +」 - 但它不起作用。我想這與斜線有關。

+0

爲什麼有人低估了這個? – Popnoodles

+0

在我的回答中查看關於\ w +的評論 –

回答

0

閱讀上使用正則表達式(java的正則表達式教程是一個良好的開端http://docs.oracle.com/javase/tutorial/essential/regex/),並嘗試的在線正則表達式的工具之一,以幫助編寫和測試它,像這樣的一個http://gskinner.com/RegExr/

例如,去掉「 LAST_MODIF ......」用正則表達式LAST_MODIFIED="\d+"

否則,你可能需要一個特定的XML工具,甚至寫一個XSL。但是,我對此不甚瞭解。

+0

謝謝Aleksandr!它適用於LAST_MODIFIED和ADD_DATE,但不適用於ICON_URI和ICON。 ? – DummyOne

+0

'\ w +'符合規則的信件,而'+'的所有字符匹配(但不貪婪,因爲貪婪地匹配所有的角色會只是比賽的結束) –

+0

你也可以用'合併多個正則表達式|'(這意味着'或'),因此您可以一次性更換所有東西 –

相關問題