2011-02-04 89 views
0

我目前正在試圖讓一個程序,給一個單詞將查找其定義並返回它。儘管我已經完成了這項工作,但我不得不求助於使用RegEx來搜索存儲定義的標籤之間的文本。什麼是更有效的方式來使用Python 3.x做到這一點?Python的HTML解析

+0

請先嚐試搜索。 http://stackoverflow.com/search?q=%5Bpython%5D+html+parse所有這些問題都適用於您的問題。 – 2011-02-04 11:13:00

+0

[如何獲取Python中Html頁面的內容]的可能重複(http://stackoverflow.com/questions/2416823/how-to-get-the-content-of-a-html-page-in-蟒蛇) – 2011-02-04 11:14:22

回答

5

lxml適用於Python 3.它具有兼容ElementTree的API,但在後臺使用c庫,所以速度很快,並且支持Xpaths,這是一種很好的解析方式(有時)。

4

嘗試BeautifulSoup一個很好的用於Python的HTML解析器。 (也適用於Python 3.x,儘管除非深入Python 3.0項目,請考慮使用2.7)

2

當談到HTML解析時,您的要求相當簡單。 Python標準庫包含ElementTree模塊,它應該有助於完成您計劃執行的任務。查找該頁面中給出的示例代碼片段。

另外,從來沒有犯的錯誤解析HTML/XML使用正則表達式。你可能不知道什麼時候它會變得非常複雜,在任何情況下也是一個壞主意。