lxml

    14熱度

    2回答

    我需要瀏覽解析的HTML文檔的DOM樹。 我使用uTidyLib與lxml的解析字符串之前 A = tidy.parseString(html_code,期權) DOM = etree.fromstring(STR(A)) 有時我得到一個錯誤,似乎tidylib不能修復格式不正確的html。 如何解析每個HTML文件而不會出現錯誤(僅解析無法修復的文件的某些部分)?

    21熱度

    3回答

    我對下面的測試文檔測試: <?xml version="1.0" encoding="UTF-8"?> <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd"> <html xmlns="http://www.w3

    4熱度

    1回答

    我使用lxml以編程方式構建HTML,我需要在輸出中包含自定義註釋。雖然在lxml中有代碼來處理註釋(當解析現有的HTML代碼時,它們可以被實例化),但是我找不到一種以編程方式實例化的方法。 任何人都可以幫忙嗎?

    1熱度

    2回答

    我正在使用lxml來處理一些現有的XML文檔,並且我想盡可能少地引入差異噪聲。不幸的是默認lxml.etree.XMLParser文檔的根元素之前或之後不保留空白: >>> xml = '\n <etaoin>shrdlu</etaoin>\n' >>> lxml.etree.tostring(lxml.etree.fromstring(xml)) '<etaoin>shrdlu</etaoi

    7熱度

    3回答

    當我使用lxml解析XML文檔時,有沒有辦法使用外部目錄文件針對其DTD驗證該文檔?我需要能夠處理文檔DTD中定義的固定屬性。

    11熱度

    3回答

    我想添加doctype到我用LXML的etree生成的XML文檔中。 但是我不知道如何添加文檔類型。對字符串進行硬編碼和拼接不是一種選擇。 我期待沿如何PI在etree加線的東西: pi = etree.PI(...) doc.addprevious(pi) 但它不是爲我工作。如何使用lxml添加到xml文檔?

    3熱度

    3回答

    當我使用Django應用程序的部署版本時,我有一個使用lxml的奇怪問題。我使用lxml來解析從服務器獲取的另一個HTML頁面。這在我自己的計算機上的開發服務器上工作得非常好,但出於某種原因,它在服務器上給我UnicodeDecodeError。 ('utf8', "\x85why hello there!", 0, 1, 'unexpected code byte') 我確定Apache(帶