想象我有內容,如:捕獲IDS與XPath在Python從URL源
cont="""<a id="test1" class="SSSS" title="DDDD" href="AAAA">EXAMPLE1</a>.....<a id="test2" class="GGGG" title="ZZZZ" href="VVVV">EXAMPLE2</a>....
"""
我想要什麼:
id1='test1'
id2='test2'
idn='testn'
你能糾正我?
if '<a id=' in cont:
....?
我一定要使用正則表達式在 Python或有通過的XPath的方法來抓住他們?
注:我只希望在標籤
爲什麼不使用類似Bsoup或lxml的東西? – 2014-11-06 08:11:35
Beautifulsoup似乎確實是一個簡單的方法來做到這一點:http://www.crummy.com/software/BeautifulSoup/bs4/doc/ – 2014-11-06 08:12:43
@Vincent Beltman如果你知道一個可靠的方法,它會受到歡迎... – MLSC 2014-11-06 08:12:45