任何人都可以給我一個例子,如何使用http://code.google.com/p/streamhtmlparser來解析出HTML文檔中的所有A
標記href的? (無論是C + +代碼或python代碼是好的,但我更喜歡一個使用python綁定的例子)使用streamhtmlparser的例子
我可以看到它是如何工作在python測試,但他們希望特殊標記已經在html檢查點狀態值。在提供解析器純html時,我沒有看到如何在狀態更改期間獲得適當的回調。
我可以通過下面的代碼獲得一些我正在尋找的信息,但是我需要一次給它提供不止一個字符的html塊,而且我需要知道它何時完成了一個標記,屬性,不只是如果它在一個標籤,屬性或價值。
import py_streamhtmlparser
parser = py_streamhtmlparser.HtmlParser()
html = """<html><body><a href='http://google.com'>link</a></body></html>"""
for index, character in enumerate(html):
parser.Parse(character)
print index, character, parser.Tag(), parser.Attribute(), parser.Value(), parser.ValueIndex()
你可以看到這個代碼的運行示例here
難道你不能只爲每個區塊提供字符嗎? – user120242 2009-08-14 05:48:52