2013-07-03 58 views
2

我試圖解析並從包含CSS和當然HTML的網頁中提取一些信息。我正在使用cssutils和beatifulsoup。可以說我想找出用於表格標題的字體大小。 Beautifulsoup告訴我表格定義在HTML中的位置。但是如果我想知道表格中使用了哪種風格,我是否可以從BeatifulSoup那裏獲得這些信息?如果不是,我該如何解決這個問題。謝謝你的幫助。如何使用python解析包含CSS和HTML的網頁

+0

你能給示例代碼? –

回答

0

是的,你明白了。 BeautifulSoup是完美的選擇,並用正則表達式是強勁的動力:)

例子:

import re 
from BeautifulSoup import BeautifulSoup 


soup = BeautifulSoup('<h1 style="font-size: 12px; margin: 5px">Test</h>') 
style = soup.find('h1')['style'] 
re.findall('font-size[^;]+', style) 
# [u'font-size: 12px']