lxml.html

    2熱度

    1回答

    我使用lxml的解析HTML文件: from lxml import html tree = html.parse(myfile) data = tree.xpath('//p/text()') 我在我的HTML文件300個<p>text</p>標籤,但len(data)僅僅是250,因爲有時我會在我的HTML <p></p>。我希望這些被包含在data中,可以是'nan'或''。 有關

    2熱度

    2回答

    我想從一堆本地html文件抓取原始html。我從這個職位的一些幫助獲取原始文件閱讀: Get all text inside a tag lxml 但我的代碼目前生產的整個文件,而不是一個子集。現在我似乎錯過了一條線,我可以選擇一個我想抓取的xpath。 這裏是我目前擁有的代碼: def stringify_children(node): from lxml.etree import t

    3熱度

    2回答

    我使用Python 3.4與lxml.html庫。 我想從我使用CSS選擇器定位的html元素中刪除border-bottom內聯樣式。 這裏顯示出一個樣品TD元素和我選擇一個代碼片段: html_snippet = lxml.html.fromstring("""<td valign="bottom" colspan="10" align="center" style="background-c

    2熱度

    1回答

    我遇到了網絡報廢功能問題。對於兩件事情,我想獲得的XPath是 /html/body/div/table[2]/tbody/tr[5]/td[1]/div[1]/ul/li[1]/text() /html/body/div/table[2]/tbody/tr[5]/td[1]/div[1]/ul/li[1]/a 的HTML是 <li><a href="http://www.acu.edu/"

    2熱度

    1回答

    我想學習如何刮網頁,並在教程中,我使用下面的代碼引發此錯誤: lxml.etree.XPathEvalError: Invalid predicate 網站我查詢時(不要對我做出判斷,這是在訓練VID使用的一個:/):https://itunes.apple.com/us/app/candy-crush-saga/id553834731 導致錯誤的XPath字符串是在這裏: links = t

    2熱度

    1回答

    如何使用LXML重命名節點? 具體來說,如何重命名父節點,即<body>標記,同時保留所有底層結構? 我使用lxml.html模塊解析,但據推測,在lxml.html.HtmlElement與其XML對應文件之間的重命名方面,xml和html之間應該沒有任何區別。 我已經搜遍了LXML網站上的文檔,但沒有找到任何有關節點重命名的參考。

    2熱度

    2回答

    import requests from lxml import html page = requests.get(url="http://www.cia.gov/library/publications/the-world-factbook/geos/ch.html") tree = html.fromstring(page.content) bordering = tree.xpa

    0熱度

    1回答

    我試圖根據HTML文檔中的前面的文本來識別給定的<table>元素。 我的當前方法是字符串化每個HTML表格元素和搜索該文件的文本內的文本索引: filing_text=request.urlopen(url).read() #some text cleanup here to make lxml's output match the .read() content ref_text = l

    2熱度

    2回答

    問題: 的date_list是一個空列表。 不應該爲空,因爲列表長度應該等於列表長度oct和filing_type_list。 我做了什麼: 搜索錯別字。 嘗試過不同的公司(例如REXAHN PHARMACEUTICALS,INC)。 對Xpath參數使用了不同的詞。 代碼: filing_dates_pg = requests.get('http://csuite.xbrl.us/php/dis

    2熱度

    2回答

    獲取文本我有一些當前的Python代碼應該從網站的某個部分使用HTML標記所在位置的xpath獲取HTML代碼。 def wordorigins(word): pageopen = lxml.html.fromstring("http://www.merriam-webster.com/dictionary/" + str(word)) pbody = pageopen.xpa