我是Python的新手,我試圖從網站中獲取xml文件並將它們加載到數據庫中。我一直在Python中使用Beautiful Soup模塊,但是我無法使用我想要的特定XML文件。 在網站源代碼,它看起來如下:Python中的正則表達式從網站上的數據
<a href="ReportName I want 20130101.XML">ReportName.XML</a>
<a href="ReportName I want 20120101.XML">ReportName.XML</a>
<<a href="ReportName I dont want 123.XML">ReportName.XML</a>
以下顯示我在Python代碼。這將帶回'href'標籤的所有內容,而我想過濾'報告我想要的名稱dddddddd'中的文件。我嘗試過使用正則表達式,例如'href = \ s \ w +',但無效,因爲它返回NONE。當我使用Python它的findall(「href」屬性)它拉回到整個字符串,但我想篩選就在XML方面的任何幫助表示讚賞
from bs4 import BeautifulSoup
import urllib
import re
webpage=("http://www.example.com")
response=urllib.urlopen(webpage).read()
soup=BeautifulSoup(response)
for link in soup.find_all('a'):
print(link.get('href')
。我嘗試了findall('href \ MarketReports')和findall('href \ w +')等代碼的變體,當我運行代碼時,將返回「None」。
任何幫助表示讚賞
你能提供一個可重複的例子(如XML或摘錄的代碼),更重要的是你使用的確切代碼? –
你要找的輸出是什麼? – jdotjdot
另外,除非我弄錯了,'findAll(「href」)''不會給你這個標籤,'findAll(「a」)'會。 –