我使用BeautifulSoup來抓取一些網頁數據,我真的無法計算如何刮取特定的'title ='標籤內<a href link </a>
如何使用python抓取<a href標籤內的數據BeautifulSoup
直到現在我得到的輸出與此代碼:
import urllib2
from bs4 import BeautifulSoup
hdr = {'Accept': 'text/html,application/xhtml+xml,*/*',"user-agent":"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.116 Safari/537.36"}
url = 'REMOVED'
req=urllib2.Request(url,headers=hdr)
urllib2.urlopen(url).read()
html = urllib2.urlopen(req).read()
soup=BeautifulSoup(html,"html5lib")
players = soup.find_all("td", {"data-title": "Navn"})
player_data = ""
saveFile = open('player_data.txt','w')
for item in players:
player_data = item.contents[0].encode("utf-8")
print player_data
saveFile.write (player_data)
saveFile.close()
我得到的數據行的格式如下:
<a href="/da/player/123/lionel-messi/" title="Lionel Messi">Lionel Messi</a>
任何人都可以請幫我得到規範從「標題=」 IFIC的名字,我似乎無法得到它的工作...
感謝提前:)
哦,對不起,如果你認爲這是一個重複的...即時通訊相當新的進入Python編程,並一直堅持這個問題2天現在,相信我,我已閱讀並嘗試了很多aproaches這個,也從類似的問題stackoverflow,但我還沒有看到類似於我的問題的另一個問題.. 。請鏈接到我原來的問題,謝謝;) - 我認爲這可能是相當容易克服多年的Python經驗,但我沒有'噸:) – BulletEyeDK