我試圖從一個項目的設計不佳的網頁中提取一些文本,經過長時間的研究和學習python後,我接近實現它,但網絡頁面設計不佳,無法找到正確的正則表達式來執行此操作。ReGex與Python無法找到正確的正則表達式
所以在這裏,我們已經完成了。 http://coj.uci.cu/24h/status.xhtml?username=Diego1149&abb=1006出於本網頁的源代碼我想獲得接受問題的第一個實例的整個行。所以我想這個
exprespatFinderTitle = re.compile('<table id="submission" class="volume">.*(<tr class=.*>.*<label class="AC">.*Accepted.*</label>.*</tr>).*</table>')
但到底是什麼這樣做是裁剪,直到表的最後<tr>
。有人能幫我解決這個問題嗎?
林使用Python 2.7絲毫BeautifulSoup和的urllib
如果使用BeautifulSoup,*爲什麼*您使用正則表達式還是? –
我試過使用BeautifulSoup,但我用正則表達式來得更近。如果我發佈我的源代碼會有幫助嗎? – Konang