我正在面對包含'<'符號的mathjax方程式問題。 如果我用lxml解析這些字符串,那麼這個字符串會被裁剪掉。用lxml解析'<'符號
有沒有辦法告訴解析器不去除未知標籤(我猜這就是問題),但保持原樣?
E.g
s="<div> This is a text with mathjax like $1<2$, let's see if this works till here $2>1$! </div>"
from lxml import html
tree=html.fragment_fromstring(s)
html.tostring(tree)
給出:
'<div> This is a text with mathjax like $11$! </div>'
如果 '<' 被逃脫了什麼冒出這將是罰款。
我完全知道這是無效的XML。但是,不幸的是,我不能用源代碼中正確的html轉義符號替換'<'符號,因爲實際上,我試圖解析包含html標記的降價文件,<符號在這裏是一個完美的符號。
謝謝!
雅各布
因爲字符串是不正確你的XML –
逃脫@ user2799617當然是不!這是問題和問題的原因! – Jakob