lxml.html

    1熱度

    1回答

    以下代碼能夠從以下路由器鏈接中提取PE。但是,我的方法並不穩健,因爲另一隻股票的網頁有兩條線較少,導致數據轉移。我怎麼能遇到這個問題。我想直接指出PE的部分來提取數據,但不知道如何去做。 鏈接1:http://www.reuters.com/finance/stocks/financialHighlights?symbol=MYEG.KL 鏈接2:http://www.reuters.com/fi

    0熱度

    1回答

    任何人都可以告訴我爲什麼網站將擴展名爲不同的名稱,如.html,.com,.net,.php,.asp? 我在.html上找到了一些信息,但是我沒有找到其他的擴展名。 謝謝

    0熱度

    1回答

    我用lxml xpath用於在Python 3 爲樣本解析HTML的網頁我有代碼,即發現元素HTML: version_android = doc.xpath("//div[@itemprop='operatingSystems']//text()") 爸爸,我有插入MySQL查詢: insert = ("insert into tracks (version) values ('%s')"

    1熱度

    3回答

    我已經在python中編寫腳本來從一些html元素中刪除一些文本。腳本現在可以解析它。但是,問題是結果看起來很奇怪,它們之間有一堆空格。我該如何解決它?任何幫助將不勝感激。 這是HTML元素的文本應該被刮掉: html=""" <div class="postal-address"> <p>11525 23 AVE</p> <p>EDMONTON, AB

    1熱度

    1回答

    我使用此代碼來獲取所有的名字: def parse_authors(self, root): author_nodes = root.xpath('//a[@class="booklink"][contains(@href,"/author/")]/text()') if author_nodes: return [unicode(author) for autho

    -1熱度

    3回答

    我有一個主要的html頁面,我打電話給其他三個html頁面,一個css和一個jQuery。 我想將其轉換爲網站。 PS:這是我第一次程序

    0熱度

    1回答

    我一直在嘗試了幾個小時,現在來提取特定小區用下表中一個文本白白: <tbody class="table-body"> <tr class=" " data-blah="25293454534534513" data-currency="1"> <td class="action-cell no-sort"> <a href="" class="buy-btn t

    1熱度

    1回答

    我使用lxml來清理html數據,但在某些情況下,lxml也刪除了有效標記。它刪除具有有效的主機的iframe標籤,但雙斜槓(//) 代碼示例啓動: >>> cleaner = Cleaner(host_whitelist=['www.youtube.com']) >>> iframe = '<iframe src="//www.youtube.com/embed/S2S5I5GHkDQ"></

    0熱度

    1回答

    我正在使用lxml從網站上刮取數據。的HTML代碼段是 <span class="pro-contact-text"> <a class="click-to-call-link text-gray-light trackMe" href="javascript:;" objId="104809" compid="clickToCall_profile_organic" phone="(

    0熱度

    1回答

    我試圖把一個「延遲」使用lxml.html屬性轉換腳本標籤,但我得到的錯誤 類型錯誤:參數必須是字節或Unicode,得到了 'NoneType' 或 類型錯誤:組()恰恰2位置參數(給定1) 如果我使用 script.set('defer') 根據http://lxml.de/lxmlhtml.html .SET(鍵,值=無): 設置HTML屬性。如果沒有給定值,或者如果值是None,它會建