我想通過HTML標籤排序,我似乎無法得到正確的。Python的正則表達式幫助
我迄今所做
import urllib
import re
s = raw_input('Enter URL: ')
f = urllib.urlopen(s)
s = f.read()
f.close
r = re.compile('<TAG\b[^>]*>(.*?)</TAG>',)
result = re.findall(r, s)
print(result)
哪裏取代「TAG」與標籤我希望看到的。
在此先感謝。
使用XML解析器來解析HTML。強制性鏈接:http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags/1732454#1732454 – 2011-01-31 22:05:02
不要用正則表達式解析HTML。正則表達式是解析HTML的不夠複雜的工具。如果有人要求你這樣做,用棍子在頭上打他們,然後使用BeautifulSoup。這對你們倆來說都不會那麼痛苦。 – 2011-01-31 22:27:09
你目前得到了什麼樣的結果? – Eli 2011-01-31 22:27:18