我想從使用python HTMLParser庫的HTML頁面中獲取一個值。我想弄個這個數值就是這個HTML元素中:如何使用python HTMLParser庫從特定的div標籤中提取數據?
...
<div id="remository">20</div>
...
這是我的HTMLParser類到目前爲止:
class LinksParser(HTMLParser.HTMLParser):
def __init__(self):
HTMLParser.HTMLParser.__init__(self)
self.seen = {}
def handle_starttag(self, tag, attributes):
if tag != 'div': return
for name, value in attributes:
if name == 'id' and value == 'remository':
#print value
return
def handle_data(self, data):
print data
p = LinksParser()
f = urllib.urlopen("http://domain.com/somepage.html")
html = f.read()
p.feed(html)
p.close()
有人能指出我在正確的方向?我希望類的功能,以獲得價值20
如果你做了很多HTML解析,嘗試[美麗的湯(http://www.crummy.com/software/BeautifulSoup/)。 – zvone 2010-07-18 15:58:41
該庫是否包含在python std庫中?我遇到它,但選擇堅持HTMLParser。 – Martin 2010-07-18 16:33:46
@zvone爲什麼BeautifulSoup更適合html解析?它仍然是推薦的模塊?謝謝。 – 2016-03-28 20:11:09