我是Python的新手,我一直在嘗試使用已使用BeautifulSoup解析的正則表達式搜索HTML。我沒有取得任何成功,我認爲原因是我沒有完全理解如何正確設置正則表達式。我已經看過有關類似問題的老問題,但我仍然沒有弄清楚。如果有人可以提取「/ torrent/32726/0 /」和「Slackware Linux 13.0 [x86 DVD ISO]」以及正則表達式如何工作的詳細表達式,那將非常有幫助。從Python解析HTML中提取文本
<td class="name">
<a href="/torrent/32726/0/">
Slackware Linux 13.0 [x86 DVD ISO]
</a>
</td>
編輯:我的意思說的是,我試圖提取 「/洪流/ 32726/0 /」 和 「Slackware的Linux的13.0 x86的DVD ISO]」 使用BeautifulSoups功能搜索解析樹。在搜索和閱讀文檔後,我一直在嘗試各種各樣的東西,但我仍然不確定如何去做。
現在,他們使用的解析器,仍然希望使用正則表達式oO你想要什麼,用'/ torrent /'開始用href提取錨點的內容?你必須走分析樹。您可以使用正則表達式來確定當前節點是否是您想要的,但您必須走解析器構建的樹。 – delnan 2010-08-26 13:17:59
我想我正在使用錯誤的術語。你是對的,我想採用BeautifulSoup生成的解析樹,並且我想提取「/ torrent/32726/0 /」和「Slackware Linux 13.0 [x86 DVD ISO]」,並將它們存儲在自己的字典中。 – FlowofSoul 2010-08-26 13:24:58