html-parser

0熱度

1回答

我試圖從HTML源代碼段既HTMLParser和BeautifulSoup 然而解碼HTML entities既不似乎完全正常工作。即他們不解碼斜槓。我的Python版本是2.7.11與BeautifulSoup版本3.2.1 print 'ORIGINAL STRING: %s \n' % original_url_string #clean up try: # Python

-1熱度

2回答

Jsoup：如何在很多元素中獲取ID和href

我需要在所有元素中獲取ID和href（如圖中彩色框所示）。我不知道如何正確地尋找路徑並提取所需的信息。我怎樣才能做到這一點？

1熱度

1回答

HTML解析器導入問題

所以我想在Python中使用HTMLParser和urllib3在python中製作一個web爬蟲。目前我有兩個不同的進口問題，第一個是 import html.parser import urllib urlText = [] #Define HTML Parser class parseText(HTMLParser.HTMLParser): def handle_data(s

0熱度

1回答

使用Jsoup解析HTML元素

使用Jsoup，我一直試圖解析文章並通過以編程方式創建TextView和ImageView來在Android應用中顯示它。我試圖避免在Android Studio中使用WebView佈局，因爲它不提供太多的自定義。使用TextView，我可以設置應用程序的行爲，如我所願。問題是我應該得到文章元素完全按照的順序，並按順序顯示它。文章可能看起來像這樣（簡化要求的緣故） <h2>Lorem ipsu

1熱度

3回答

使用BeautifulSoup從標題標籤中提取數據？

我想通過python中的BeautifulSoup庫獲取它的HTML後提取鏈接的標題。基本上，整個標題標籤 <title>Imaan Z Hazir on Twitter: "Guantanamo and Abu Ghraib, financial and military support to dictators in Latin America during the cold wa

0熱度

1回答

Htmlparser2解析獲取鏈接，然後解析這些鏈接（node.js）

我在nodejs中使用htmlparser2來解析HTML頁面。我解析一個頁面以獲取到其他頁面的鏈接。然後，我想解析這些鏈接（解析函數與第一個解析頁面上的解析函數不同）以獲取我需要的鏈接旁邊的其他信息。我的問題是，我不知道如何解析多個頁面。如果我在數組中放入鏈接，然後遍歷它併爲每個頁面調用解析器，由於異步性質，它不起作用。即使我在for循環中調用了多個請求，它也不會解析所有的鏈接，而且我仍然遇到

0熱度

2回答

獲取列表元素時，HTML解析

我有這樣一段HTML的： <li class="myclass"> <ul class="myclass2"> <li><span>Name1</span><span>Value1</span></li><li><span>Name2</span><span>Value2</span></li><li><span>Name3</span><span>Value3</s

0熱度

1回答

python beautifulsoup：lxml html.parser

我必須使用beautifulsoup，但我不知道我必須採用哪個解析器。我在lxml和html.parser之間猶豫不決，或者爲什麼不是兩者。如何知道網頁是否符合lxml？如何知道網頁是否符合html解析器？非常感謝

0熱度

1回答

PHP簡單的HTML DOM解析器 - 環

我就開始玩簡單的HTML末日解析器和我有一些麻煩：的HTML代碼如下： <div class="players"> <ul class="dane"> <li> <div class="name">Messi</div> <div class="value">Barcelona</div> </li> <li>

0熱度

1回答

無法使用節點的HTMLParser

我嘗試使用下面的代碼閱讀Slashdot的RSS訂閱閱讀RSS提要： var htmlparser = require("htmlparser"); var sys = require("sys"); var handler = new htmlparser.RssHandler(function (error, dom) { if(error) throw error;