Python的HTML解析

2011-02-04 89 views 0 likes

我目前正在試圖讓一個程序，給一個單詞將查找其定義並返回它。儘管我已經完成了這項工作，但我不得不求助於使用RegEx來搜索存儲定義的標籤之間的文本。什麼是更有效的方式來使用Python 3.x做到這一點？Python的HTML解析

請先嚐試搜索。 http://stackoverflow.com/search?q=%5Bpython%5D+html+parse所有這些問題都適用於您的問題。 – 2011-02-04 11:13:00

[如何獲取Python中Html頁面的內容]的可能重複（http://stackoverflow.com/questions/2416823/how-to-get-the-content-of-a-html-page-in-蟒蛇） – 2011-02-04 11:14:22

回答

lxml適用於Python 3.它具有兼容ElementTree的API，但在後臺使用c庫，所以速度很快，並且支持Xpaths，這是一種很好的解析方式（有時）。

2011-02-04 08:46:34

嘗試BeautifulSoup一個很好的用於Python的HTML解析器。（也適用於Python 3.x，儘管除非深入Python 3.0項目，請考慮使用2.7）

2011-02-04 06:16:47 ocodo

當談到HTML解析時，您的要求相當簡單。 Python標準庫包含ElementTree模塊，它應該有助於完成您計劃執行的任務。查找該頁面中給出的示例代碼片段。

另外，從來沒有犯的錯誤解析HTML/XML使用正則表達式。你可能不知道什麼時候它會變得非常複雜，在任何情況下也是一個壞主意。

2011-02-04 06:27:43

相關問題