2011-09-13 58 views
1

我有一堆Word文檔被「保存爲」過濾html。 html文件包含我需要刪除的外部ole鏈接。例如,我想替換:刪除html標記,但不是標記內容

<h3><a name="OLE_LINK25">My Section Title</a></h3> 

<h3>My Section Title</h3> 

對我怎麼可能做到這一點的任何建議,以自動化的方式?

+2

介意告訴我們什麼您正在使用的語言? –

回答

1

Jsoup可能有助於刪除名稱以「OLE」開頭的所有錨定標記。

Elements anchors = doc.select("a[name^=OLE]"); 
for (Iterator it = anchors.iterator(); it.hasNext();) { 
    Element anchor = it.next(); 
    String text = anchor.text(); 
    Element header = anchor.parent(); 
    header.text(text); 
} 
+0

謝謝。正是我需要的。 – moondog

1

你可以嘗試這樣的事情(未經測試,確保測試前):

sed -i".backup" 's/<([^ ]+) name="OLE[^"]*">([^<]+)<\/\1>/\2/g' *.html 

這將完成與剛剛WHATEVER_HERE所有* .html文件替換<TAG name="OLE....">WHATEVER_HERE</TAG>所有occurrances。它也將讓每個* .html文件的備份從FILENAME.htmlFILENAME.html.backup

如果必要的話,下載 sed for Windows

或者gnu sed

+0

非常感謝!我最終採用了jsoup方法,但你的建議看起來也不錯。非常感激。 – moondog