0
我能夠使用this question作爲解析「mht」文件的起點,但錨標記(例如:<a href=3D"[my anchor]">[anchor text]></a>
)中的「3D」會打破所有內部鏈接和嵌入圖像。我可以讓解析器用「=」替代「= 3D」(例如:<a href="[my anchor]">[anchor text]></a>
),它似乎工作正常,但我想了解該「元標記」的目的。解析MHTML的問題
爲什麼從「.docx」導出爲「.mht」將「3D」添加到大多數(如果不是全部)html屬性的右側?有更好的方式來處理它們或更好的正則表達式時使用它們?
太棒了!這正是我需要的。謝謝傑夫! –
具體來說,我在我的問題中描述的正則表達式用'='替換了引用的'='的可打印編碼。我將研究解碼其他引用的可打印編碼字符。再次感謝! –