我需要解析通過將word文檔保存爲html而生成的html文檔。在html文檔中解析腳註
我一直使用的HTML敏捷包相當成功,但在這種情況下我想使用正則表達式的這一部分可能會更容易(意見?)
Word中生成以下代碼時它轉換它的註腳成HTML
<a href="#_ftn2" name="_ftnref2" title=""><span
class=MsoFootnoteReference><span class=MsoFootnoteReference><span
style='font-size:10.0pt'>[2]</span></span></span></a>
該輸出是對於每個腳註符合僅HREF =和名稱改變以及[2]設置文本。
我需要提取_ftn2和[2]元素。
到目前爲止,我有以下的正則表達式,這將在_ftn2部分提取到我有一點麻煩解析第二位與所有那些跨度標籤名稱組
<a href="#(?<name>_ftn\d).*>(<span class=MsoFootNoteReference>)
。
這是否會更容易使用正則表達式呢,還是應該繼續使用這個部分的HAP?
的旁白,沒有人知道爲什麼這個詞產生嵌套相同span標籤
<span class=MsoFootnoteReference>
我會得到班級MsFootNoteReference的所有跨度並檢查父母href ... – philipp