lxml.html

1熱度

1回答

我正在使用lxml.html解析html內容。但我不明白爲什麼lxml會丟棄「body」標籤屬性。嘗試使用lxml.html.parse和lxml.html.document_fromstring建議here 但仍然無法正常工作。例HTML字符串： - <html class="hello"> <head> <iframe src="index.html"></iframe> </head>

1熱度

1回答

請求/ lxml腳本僅在終端中工作，但在IDLE或PythonAnywhere中不檢索數據？什麼會造成這種情況？

所以我的代碼工作完全像我想要在終端中，但我不能讓它在空閒（自帶軟件）或PythonAnywhere工作。當我嘗試調用應該收集的數據時，我收到了一條錯誤，但函數本身不返回錯誤。 def GetQuantityNDescription(orderID, itemNum): payload = {'login_pass': 'password', 'login_user': 'user','

1熱度

1回答

lxml - 根據父類獲取子屬性

我試圖從類foo的td標籤的第一個孩子中提取hrefs。一個例子DOM是： <td class="foo"> <a href="www.foobar1.com"></a> </td> <td class="foo"> <a href="www.foobar2.com"></a> </td> 從這個我想獲得["www.foobar1.com", "www.foobar2

3熱度

1回答

lxml.html。讀取文件時出錯;無法加載外部實體

這是我在StackOverflow上的第一個問題。我試圖在這裏找到解決問題的解決方案，但在嘗試了幾個建議的解決方案之後，我仍然無法讓我的代碼工作。我想從YouTube上使用與lxml.html解析電影預告片網址： from lxml import html import lxml.html from lxml.etree import XPath def get_youtube_trai

1熱度

1回答

使用xpath刮蹭新的ESPN網站[Python]

我正試圖抓取新的ESPN NBA記分牌。下面是一個簡單的腳本，它應該返回的開始時間爲所有的遊戲在15年4月5日： import requests import lxml.html from lxml.cssselect import CSSSelector doc = lxml.html.fromstring(requests.get('http://scores.espn.go.com/

1熱度

1回答

如何用lxml解析一個html頁面，<br />搞砸了？

我想分析美國宇航局的網站LXML下面這段HTML中的Python： <p> <strong>Launch Date:</strong>1981-09-24<br/> <strong>Launch Vehicle:</strong> Delta<br/> <strong>Launch Site:</strong> Cape Canaveral, United St

0熱度

1回答

爬行時出現非常奇怪的錯誤

我不喜歡爬行網頁。但是當我開始刮這個網址 bse insider trading 我收到了一個非常奇怪的錯誤。關於此頁面的一些細節。本頁屬於印度市場的一個主要交易所。默認情況下，當此頁面加載時，它顯示最近的內幕交易信息。當我們選擇日期並提交時，會發出一個發佈請求並顯示數據。當然，數據跨越多個頁面。當我發送具有自定義日期的適當的發佈數據時，我得到page$2的狀態代碼500，這意味着我需要在第2

-1熱度

3回答

使用XPath

在蟒蛇捕獲標籤之間的狀態我想捕捉字WORD一句This is what I want.在以下格式： <div id="message1"> <div class="message2"> <strong>WORD</strong> This is what I want.<br/> </div> </div> 我想的是： import requests from lxml imp

4熱度

1回答

在python中使用lxml打印html實體

我試圖從html實體的下面的字符串中創建一個div元素。由於我的字符串包含html實體，所以在輸出中將html實體中的保留字符&轉義爲&。因此，html實體顯示爲純文本。我怎樣才能避免這樣的HTML實體正確呈現？ s = 'Actress Adamari López And Amgen Launch Spanish-Language Chemotherapy: Myths Or

0熱度

1回答

從lxml中獲取文本評論

我正在嘗試獲取_Comment的內容。我已經研究瞭如何做，但我不知道如何從td元素訪問函數以抓取文本。如果有幫助的話，我使用python Scrapy模塊的xpaths。 td = None [_Element] <built-in function Comment> = None [_Comment] a = None [_Element] 用於td元件的HTML是： <