這裏是我想解析的html。從非唯一表上的html檢索字符串
<TD>Serial Number</TD><TD>AB12345678</TD>
我正在嘗試使用正則表達式來解析數據。我聽說過BeautifulSoup,但在頁面上有大約50個這樣的項目都使用相同的表格參數,並且它們都沒有ID號碼。他們對唯一標識符最接近的是我需要的數據之前的單元格中的數據。
serialNumber = re.search("Serial Number</td><td>\n(.*?)</td>", source)
源代碼只是使用urllib抓取的頁面的源代碼。在第二個和序列號之間的html中有新的行,但我不確定這是否重要。
正則表達式是傳統的不明智的解決方案來解析HTML。你真的應該使用BeautifulSoup,只要(條件),下降到表中並獲取數據。否則,進入下一張桌子。你可以嘗試[scrapy](http://scrapy.org/)並使用它來編寫一個蜘蛛,它通常包含類似於正則表達式的東西 – inspectorG4dget 2011-05-16 19:27:00
強制性鏈接:http://stackoverflow.com/questions/1732348/regex- match-open-tags-except-xhtml-self-contained-tags – Amadan 2011-05-16 19:32:21