我有一堆Word文檔被「保存爲」過濾html。 html文件包含我需要刪除的外部ole鏈接。例如,我想替換:刪除html標記,但不是標記內容
<h3><a name="OLE_LINK25">My Section Title</a></h3>
與
<h3>My Section Title</h3>
對我怎麼可能做到這一點的任何建議,以自動化的方式?
我有一堆Word文檔被「保存爲」過濾html。 html文件包含我需要刪除的外部ole鏈接。例如,我想替換:刪除html標記,但不是標記內容
<h3><a name="OLE_LINK25">My Section Title</a></h3>
與
<h3>My Section Title</h3>
對我怎麼可能做到這一點的任何建議,以自動化的方式?
你可以嘗試這樣的事情(未經測試,確保測試前):
sed -i".backup" 's/<([^ ]+) name="OLE[^"]*">([^<]+)<\/\1>/\2/g' *.html
這將完成與剛剛WHATEVER_HERE
所有* .html文件替換<TAG name="OLE....">WHATEVER_HERE</TAG>
所有occurrances。它也將讓每個* .html文件的備份從FILENAME.html到FILENAME.html.backup
如果必要的話,下載 sed for Windows
或者gnu sed
非常感謝!我最終採用了jsoup方法,但你的建議看起來也不錯。非常感激。 – moondog
介意告訴我們什麼您正在使用的語言? –