我目前正在學習Python,我試圖做一個小刮板,但我遇到了美麗的湯和正則表達式的問題。與正則表達式匹配的問題
我想匹配具有以下HTML網站的所有鏈接:
<td>
<a href="/l1234/Place+Number+1">Place Number 1 </a>
</td>
<td width="100">
California </td>
<td>
<a href="/l2342/Place+Number+2">Place Number 2 </a>
</td>
<td width="100">
Florida </td>
我想所有的以下鏈接:「/ LXXXX /地點+數字+ X」
我使用Python和beautifulsoup此:
import BeautifulSoup
import urllib2
import re
address = 'http://www.example.com'
html = urllib2.urlopen(address).read()
soup = BeautifulSoup(html)
for tag in soup.findAll('a', id = re.compile('l[0-9]*')):
print tag['href']
在soup.findAll正則表達式部分,我對一些示例代碼中發現,因爲我似乎無法從beautifulSoup文件到W獲得的例子ork.With沒有正則表達式的一部分,我得到了頁面上的所有鏈接,但我只想要「lxxx」的
我做錯了我的正則表達式?也許有一種方法可以在正則表達式中做到這一點,但我似乎無法找到方法。
你在哪裏看到的id = LXXX?這是關於href! – dfens 2011-03-17 16:13:06
感謝您使用html解析器,上帝創造了一隻小貓,當他看到您的帖子時。嘗試匹配的HREF不ID! – austinbv 2011-03-17 16:18:16
啊,是的,我不確定我發現的代碼示例中的那個部分。謝謝! – user664698 2011-03-17 16:25:18