標籤這是我的HTML樹如何分割從HTML樹
<li class="taf"><h3><a href="26eOfferCode%3DGSONESTP-----------" id="pa1">
Citibank <b>Credit Card</b> - Save over 5% on fuel | Citibank.co.in</a>
</h3>Get the IndianOil Citibank <b>Card</b>. Apply Now!
<br />
<a href="e%253DGOOGLE ------">Get 10X Rewards On Shopping</a> -
<a href="S%2526eOfferCode%253DGSCCSLEX ------">Save Over 5% On Fuel</a>
<br />
<cite>www.citibank.co.in/<b>CreditCards</b></cite>
</li>
從這個網站,我需要提取beforeth的< BR>標籤
線路1線:獲得印度石油公司花旗銀行卡。現在申請!
線路2:獲取10X獎勵安商場 - 節省超過5%的燃油
它是如何應該在Python呢?
如果這不是唯一的情況,你需要做更多這樣的東西,看看一些(x)的HTML解析庫。例如[美麗的湯](http://www.crummy.com/software/BeautifulSoup/)或[lxml](http://lxml.de/)。在標準庫中,有[minidom](http://docs.python.org/library/xml.dom.minidom.html),但我不喜歡它,它可能不會在錯誤的語法(你在現實世界中會發現很多)。 – rplnt 2012-01-09 12:28:28