如何使用python抓取<a href標籤內的數據BeautifulSoup

-1

我使用BeautifulSoup來抓取一些網頁數據，我真的無法計算如何刮取特定的'title ='標籤內<a href link </a>如何使用python抓取<a href標籤內的數據BeautifulSoup

直到現在我得到的輸出與此代碼：

import urllib2 
    from bs4 import BeautifulSoup 

    hdr = {'Accept': 'text/html,application/xhtml+xml,*/*',"user-agent":"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.116 Safari/537.36"} 
    url = 'REMOVED' 

    req=urllib2.Request(url,headers=hdr) 
    urllib2.urlopen(url).read() 
    html = urllib2.urlopen(req).read() 
    soup=BeautifulSoup(html,"html5lib") 

    players = soup.find_all("td", {"data-title": "Navn"}) 

    player_data = "" 
    saveFile = open('player_data.txt','w') 

for item in players: 

    player_data = item.contents[0].encode("utf-8") 
    print player_data 
    saveFile.write (player_data) 

saveFile.close()

我得到的數據行的格式如下：

<a href="/da/player/123/lionel-messi/" title="Lionel Messi">Lionel Messi</a>

任何人都可以請幫我得到規範從「標題=」 IFIC的名字，我似乎無法得到它的工作...

感謝提前:)

來源

2016-07-28 BulletEyeDK

哦，對不起，如果你認爲這是一個重複的...即時通訊相當新的進入Python編程，並一直堅持這個問題2天現在，相信我，我已閱讀並嘗試了很多aproaches這個，也從類似的問題stackoverflow，但我還沒有看到類似於我的問題的另一個問題.. 。請鏈接到我原來的問題，謝謝;） - 我認爲這可能是相當容易克服多年的Python經驗，但我沒有'噸:) – BulletEyeDK

爲了得到HREF代碼標題：

players = soup.find('a')['title']

輸出：

Lionel Messi

什麼是soup.find('a')['title']？

.find('a')意味着找到一個href標記
['title]意味着得到一個標籤的標題屬性

來源

2016-07-28 19:43:36

感謝您的評論，不知何故...我仍然無法計算如何得到它的工作，即時通訊抱歉，但即時通訊非常新的工作與蟒蛇...我可以解決這個「單行」的代碼用我的實際代碼行：players = soup.find_all（「td」，{「data-title」：「Navn」}），因爲這個人需要在那裏...否則我沒有數據開始 – BulletEyeDK

運行確切的代碼行給我這個錯誤：TypeError：'NoneType'對象不可迭代 – BulletEyeDK

感謝您提供有用的信息，我使用'code' player_data = item.contents [0] ['title']。「utf-8」）'code''謝謝;） – BulletEyeDK

如何使用python抓取<a href標籤內的數據BeautifulSoup

回答

相關問題