2013-04-12 48 views
0

我試圖從一個項目的設計不佳的網頁中​​提取一些文本,經過長時間的研究和學習python後,我接近實現它,但網絡頁面設計不佳,無法找到正確的正則表達式來執行此操作。ReGex與Python無法找到正確的正則表達式

所以在這裏,我們已經完成了。 http://coj.uci.cu/24h/status.xhtml?username=Diego1149&abb=1006出於本網頁的源代碼我想獲得接受問題的第一個實例的整個行。所以我想這個

exprespatFinderTitle = re.compile('<table id="submission" class="volume">.*(<tr class=.*>.*<label class="AC">.*Accepted.*</label>.*</tr>).*</table>') 

但到底是什麼這樣做是裁剪,直到表的最後<tr>。有人能幫我解決這個問題嗎?

林使用Python 2.7絲毫BeautifulSoup和的urllib

+0

如果使用BeautifulSoup,*爲什麼*您使用正則表達式還是? –

+0

我試過使用BeautifulSoup,但我用正則表達式來得更近。如果我發佈我的源代碼會有幫助嗎? – Konang

回答

0

棒單獨BeautitfulSoup;正則表達式是爲HTML解析工具:

table = soup.find('table', id='submission') 
accepted = table.tbody.find('label', class_='AC') 
if accepted: 
    row = accepted.parent.parent # row with accepted column 
+0

好吧,非常感謝,這真的幫助我一直試圖找出連續8小時的情況。再次感謝你:) – Konang