2011-02-25 98 views
1

我需要解析將會類似但不完全相同的html電子郵件。我會尋找諸如日期,金額,供應商等等的東西,但取決於電子郵件的來源,標記會有所不同。Python html解析

我怎麼能從python中的許多不同的html標記中解析出那些常見的東西?

感謝您的建議。

+3

只是*不*使用正則表達式:) – 2011-02-25 17:10:25

回答

7

您絕對需要考慮Beautiful Soup庫。

+0

看起來像解析html的好方法。 BeatifulSoup是否也會清除/修復不正常的HTML? – Sam 2011-02-25 22:04:03

+0

@ user634529。答案是肯定的。 – bioffe 2011-02-25 22:20:17

2

您可以使用Beautiful Soup來解析Python中的HTML。

+0

@downvoter:你是否試圖獲得徽章來降低一切或什麼?鏈接沒有死,你沒有留下評論。我假設同一個人在這裏低估了所有3個答案。 – nmichaels 2014-10-20 21:44:03

2

BeautifulSoup或lxml是不錯的HTML解析器。 BeautifulSoup更方便一些,但有一些雜項。