lxml

    0熱度

    1回答

    我希望從here解析表格內容。但是,該表繼續分成多個頁面。我的問題是我無法解析從page 2開始的頁面,因爲url地址沒有變化。如何找到url地址存儲其他頁面的地址?我正在使用lxml和requests。

    2熱度

    1回答

    我正在讀取xliff文件並計劃檢索特定元素。我試着用打印的所有元素 from lxml import etree with open('path\to\file\.xliff', 'r',encoding = 'utf-8') as xml_file: tree = etree.parse(xml_file) root = tree.getroot() for eleme

    1熱度

    1回答

    我試圖更改以下HTML文檔中標題的值: <html lang="en"> <head> <meta charset="utf-8"> <title id="title"></title> <base href="/"> <meta name="viewport" content="width=device-width, initial-scale=1">

    2熱度

    1回答

    我在Python中藉助LXML庫解析大型XML(〜500MB)。我用BeautifulSoup和lxml-xml解析器來處理小文件。但是當我遇到大量的XML時,它讀取整個文件一次就沒有效率,然後解析它。 我需要解析一個XML以獲得根葉路徑(除了最外層的標記)。 例如。 <?xml version="1.0" encoding="utf-8"?> <!DOCTYPE A> <A> <B

    1熱度

    1回答

    我有以下代碼: url = 'https://www.basketball-reference.com/leagues/NBA_2017_standings.html#all_expanded_standings' html = urlopen(url) soup = BeautifulSoup(html, 'lxml') print(len(soup.findAll('table')))

    0熱度

    1回答

    我有一個cim/xml格式的xml文檔。所述文檔包括兩個命名空間 RDF, CIM。 文檔的一部分如下所示: <?xml version='1.0' encoding='UTF-8'?> <rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:cim="http://iec.ch/TC57/2013/CIM-s

    -1熱度

    1回答

    無法理解下面的XPath查詢的結果: from lxml import etree from io import StringIO s = '<aaa><bbb>f<ccc>e</ccc>d</bbb></aaa>' tree = etree.parse(StringIO(s)) print(tree.xpath('//bbb[.="fed"]')) #prints an empty li

    -1熱度

    2回答

    我試圖從表現爲字符串日期的列表中創建一個熊貓系列,即: ['2016-08-09', '2015-08-03', '2017-08-15', '2017-12-14', ... ,但是當我申請pd.Series從熊貓模塊中的結果Jupyter筆記本顯示爲: 0 [[[2016-08-09]]] 1 [[[2015-08-03]]] 2 [[[2017-08-15]]] 3

    0熱度

    1回答

    我想對XML中的選定元素進行評論和取消註釋。 xml看起來像這樣。 <ls> <lo n="x" add="b" l="D"> <myconf conf="rf"/> <!-- <myconf conf="st"/> --> </lo> <lo n="s" add="b" l="D"> <myconf conf="rf"/>

    1熱度

    1回答

    我想解析一個使用lxml的16Mb html文件。我的實際任務是獲取所有文檔標記和每個doc標記,如果docno標記的值與我的文檔列表匹配,我將提取doc標記的內容。 self.doc_file_list是一個包含我需要解析的16Mb文件路徑的列表。 文件是文件的絕對路徑。 這是我使用目前 for file in file(self.doc_file_list,'r'): tree =