html-parser

    0熱度

    1回答

    我試圖從HTML源代碼段既HTMLParser和BeautifulSoup 然而解碼HTML entities既不似乎完全正常工作。即他們不解碼斜槓。 我的Python版本是2.7.11與BeautifulSoup版本3.2.1 print 'ORIGINAL STRING: %s \n' % original_url_string #clean up try: # Python

    -1熱度

    2回答

    我需要在所有元素中獲取ID和href(如圖中彩色框所示)。我不知道如何正確地尋找路徑並提取所需的信息。我怎樣才能做到這一點?

    1熱度

    1回答

    所以我想在Python中使用HTMLParser和urllib3在python中製作一個web爬蟲。目前我有兩個不同的進口問題,第一個是 import html.parser import urllib urlText = [] #Define HTML Parser class parseText(HTMLParser.HTMLParser): def handle_data(s

    0熱度

    1回答

    使用Jsoup,我一直試圖解析文章並通過以編程方式創建TextView和ImageView來在Android應用中顯示它。我試圖避免在Android Studio中使用WebView佈局,因爲它不提供太多的自定義。使用TextView,我可以設置應用程序的行爲,如我所願。 問題是我應該得到文章元素完全按照的順序,並按順序顯示它。 文章可能看起來像這樣(簡化要求的緣故) <h2>Lorem ipsu

    1熱度

    3回答

    我想通過python中的BeautifulSoup庫獲取它的HTML後提取鏈接的標題。 基本上,整個標題標籤 <title>Imaan Z Hazir on Twitter: "Guantanamo and Abu Ghraib, financial and military support to dictators in Latin America during the cold wa

    0熱度

    1回答

    我在nodejs中使用htmlparser2來解析HTML頁面。我解析一個頁面以獲取到其他頁面的鏈接。然後,我想解析這些鏈接(解析函數與第一個解析頁面上的解析函數不同)以獲取我需要的鏈接旁邊的其他信息。 我的問題是,我不知道如何解析多個頁面。如果我在數組中放入鏈接,然後遍歷它併爲每個頁面調用解析器,由於異步性質,它不起作用。即使我在for循環中調用了多個請求,它也不會解析所有的鏈接,而且我仍然遇到

    0熱度

    2回答

    我有這樣一段HTML的: <li class="myclass"> <ul class="myclass2"> <li><span>Name1</span><span>Value1</span></li><li><span>Name2</span><span>Value2</span></li><li><span>Name3</span><span>Value3</s

    0熱度

    1回答

    我必須使用beautifulsoup,但我不知道我必須採用哪個解析器。 我在lxml和html.parser之間猶豫不決,或者爲什麼不是兩者。 如何知道網頁是否符合lxml? 如何知道網頁是否符合html解析器? 非常感謝

    0熱度

    1回答

    我就開始玩簡單的HTML末日解析器和我有一些麻煩: 的HTML代碼如下: <div class="players"> <ul class="dane"> <li> <div class="name">Messi</div> <div class="value">Barcelona</div> </li> <li>

    0熱度

    1回答

    我嘗試使用下面的代碼閱讀Slashdot的RSS訂閱閱讀RSS提要: var htmlparser = require("htmlparser"); var sys = require("sys"); var handler = new htmlparser.RssHandler(function (error, dom) { if(error) throw error;