lxml

0熱度

1回答

我希望從here解析表格內容。但是，該表繼續分成多個頁面。我的問題是我無法解析從page 2開始的頁面，因爲url地址沒有變化。如何找到url地址存儲其他頁面的地址？我正在使用lxml和requests。

2熱度

1回答

我正在讀取xliff文件並計劃檢索特定元素。我試着用打印的所有元素 from lxml import etree with open('path\to\file\.xliff', 'r',encoding = 'utf-8') as xml_file: tree = etree.parse(xml_file) root = tree.getroot() for eleme

1熱度

1回答

LXML：元素不是此節點的子

我試圖更改以下HTML文檔中標題的值： <html lang="en"> <head> <meta charset="utf-8"> <title id="title"></title> <base href="/"> <meta name="viewport" content="width=device-width, initial-scale=1">

2熱度

1回答

Python LXML iterparse函數：解析一個巨大的XML時內存沒有被釋放

我在Python中藉助LXML庫解析大型XML（〜500MB）。我用BeautifulSoup和lxml-xml解析器來處理小文件。但是當我遇到大量的XML時，它讀取整個文件一次就沒有效率，然後解析它。我需要解析一個XML以獲得根葉路徑（除了最外層的標記）。例如。 <?xml version="1.0" encoding="utf-8"?> <!DOCTYPE A> <A> <B

1熱度

1回答

美麗的湯取動態表數據

我有以下代碼： url = 'https://www.basketball-reference.com/leagues/NBA_2017_standings.html#all_expanded_standings' html = urlopen(url) soup = BeautifulSoup(html, 'lxml') print(len(soup.findAll('table')))

0熱度

1回答

在具有命名空間的XML文檔中使用lxml.xpath給定rdf：ID的Seach元素

我有一個cim/xml格式的xml文檔。所述文檔包括兩個命名空間 RDF， CIM。文檔的一部分如下所示： <?xml version='1.0' encoding='UTF-8'?> <rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:cim="http://iec.ch/TC57/2013/CIM-s

-1熱度

1回答

LXML XPath的元素的搜索奇怪的結果使用字符串值

無法理解下面的XPath查詢的結果： from lxml import etree from io import StringIO s = '<aaa><bbb>f<ccc>e</ccc>d</bbb></aaa>' tree = etree.parse(StringIO(s)) print(tree.xpath('//bbb[.="fed"]')) #prints an empty li

-1熱度

2回答

爲什麼從列表中創建的熊貓系列出現在方括號內？

我試圖從表現爲字符串日期的列表中創建一個熊貓系列，即： ['2016-08-09', '2015-08-03', '2017-08-15', '2017-12-14', ... ，但是當我申請pd.Series從熊貓模塊中的結果Jupyter筆記本顯示爲： 0 [[[2016-08-09]]] 1 [[[2015-08-03]]] 2 [[[2017-08-15]]] 3

0熱度

1回答

使用python評論和取消註釋xml元素

我想對XML中的選定元素進行評論和取消註釋。 xml看起來像這樣。 <ls> <lo n="x" add="b" l="D"> <myconf conf="rf"/>  </lo> <lo n="s" add="b" l="D"> <myconf conf="rf"/>

1熱度

1回答

爲什麼lxml html解析器不解析完整文件？

我想解析一個使用lxml的16Mb html文件。我的實際任務是獲取所有文檔標記和每個doc標記，如果docno標記的值與我的文檔列表匹配，我將提取doc標記的內容。 self.doc_file_list是一個包含我需要解析的16Mb文件路徑的列表。文件是文件的絕對路徑。這是我使用目前 for file in file(self.doc_file_list,'r'): tree =