lxml.html

    1熱度

    1回答

    我正在使用lxml.html解析html內容。但我不明白爲什麼lxml會丟棄「body」標籤屬性。 嘗試使用lxml.html.parse和lxml.html.document_fromstring建議here 但仍然無法正常工作。 例HTML字符串: - <html class="hello"> <head> <iframe src="index.html"></iframe> </head>

    1熱度

    1回答

    所以我的代碼工作完全像我想要在終端中,但我不能讓它在空閒(自帶軟件)或PythonAnywhere工作。 當我嘗試調用應該收集的數據時,我收到了一條錯誤,但函數本身不返回錯誤。 def GetQuantityNDescription(orderID, itemNum): payload = {'login_pass': 'password', 'login_user': 'user','

    1熱度

    1回答

    我試圖從類foo的td標籤的第一個孩子中提取hrefs。一個例子DOM是: <td class="foo"> <a href="www.foobar1.com"></a> </td> <td class="foo"> <a href="www.foobar2.com"></a> </td> 從這個我想獲得["www.foobar1.com", "www.foobar2

    3熱度

    1回答

    這是我在StackOverflow上的第一個問題。我試圖在這裏找到解決問題的解決方案,但在嘗試了幾個建議的解決方案之後,我仍然無法讓我的代碼工作。 我想從YouTube上使用與lxml.html解析電影預告片網址: from lxml import html import lxml.html from lxml.etree import XPath def get_youtube_trai

    1熱度

    1回答

    我正試圖抓取新的ESPN NBA記分牌。下面是一個簡單的腳本,它應該返回的開始時間爲所有的遊戲在15年4月5日: import requests import lxml.html from lxml.cssselect import CSSSelector doc = lxml.html.fromstring(requests.get('http://scores.espn.go.com/

    1熱度

    1回答

    我想分析美國宇航局的網站LXML下面這段HTML中的Python: <p> <strong>Launch Date:</strong>1981-09-24<br/> <strong>Launch Vehicle:</strong> Delta<br/> <strong>Launch Site:</strong> Cape Canaveral, United St

    0熱度

    1回答

    我不喜歡爬行網頁。但是當我開始刮這個網址 bse insider trading 我收到了一個非常奇怪的錯誤。 關於此頁面的一些細節。本頁屬於印度市場的一個主要交易所。默認情況下,當此頁面加載時,它顯示最近的內幕交易信息。當我們選擇日期並提交時,會發出一個發佈請求並顯示數據。當然,數據跨越多個頁面。 當我發送具有自定義日期的適當的發佈數據時,我得到page$2的狀態代碼500,這意味着我需要在第2

    -1熱度

    3回答

    在蟒蛇捕獲標籤之間的狀態我想捕捉字WORD一句This is what I want.在以下格式: <div id="message1"> <div class="message2"> <strong>WORD</strong> This is what I want.<br/> </div> </div> 我想的是: import requests from lxml imp

    4熱度

    1回答

    我試圖從html實體的下面的字符串中創建一個div元素。由於我的字符串包含html實體,所以在輸出中將html實體中的保留字符&轉義爲&。因此,html實體顯示爲純文本。我怎樣才能避免這樣的HTML實體正確呈現? s = 'Actress Adamari López And Amgen Launch Spanish-Language Chemotherapy: Myths Or

    0熱度

    1回答

    我正在嘗試獲取_Comment的內容。我已經研究瞭如何做,但我不知道如何從td元素訪問函數以抓取文本。如果有幫助的話,我使用python Scrapy模塊的xpaths。 td = None [_Element] <built-in function Comment> = None [_Comment] a = None [_Element] 用於td元件的HTML是: <