2016-07-28 804 views
-1

我使用BeautifulSoup來抓取一些網頁數據,我真的無法計算如何刮取特定的'title ='標籤內<a href link </a>如何使用python抓取<a href標籤內的數據BeautifulSoup

直到現在我得到的輸出與此代碼:

import urllib2 
    from bs4 import BeautifulSoup 

    hdr = {'Accept': 'text/html,application/xhtml+xml,*/*',"user-agent":"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.116 Safari/537.36"} 
    url = 'REMOVED' 

    req=urllib2.Request(url,headers=hdr) 
    urllib2.urlopen(url).read() 
    html = urllib2.urlopen(req).read() 
    soup=BeautifulSoup(html,"html5lib") 

    players = soup.find_all("td", {"data-title": "Navn"}) 

    player_data = "" 
    saveFile = open('player_data.txt','w') 

for item in players: 

    player_data = item.contents[0].encode("utf-8") 
    print player_data 
    saveFile.write (player_data) 

saveFile.close()  

我得到的數據行的格式如下:

<a href="/da/player/123/lionel-messi/" title="Lionel Messi">Lionel Messi</a> 

任何人都可以請幫我得到規範從「標題=」 IFIC的名字,我似乎無法得到它的工作...

感謝提前:)

+0

哦,對不起,如果你認爲這是一個重複的...即時通訊相當新的進入Python編程,並一直堅持這個問題2天現在,相信我,我已閱讀並嘗試了很多aproaches這個,也從類似的問題stackoverflow,但我還沒有看到類似於我的問題的另一個問題.. 。請鏈接到我原來的問題,謝謝;) - 我認爲這可能是相當容易克服多年的Python經驗,但我沒有'噸:) – BulletEyeDK

回答

3

爲了得到HREF代碼標題:

players = soup.find('a')['title'] 

輸出:

Lionel Messi 

什麼是soup.find('a')['title']

  • .find('a')意味着找到一個href標記
  • ['title]意味着得到一個標籤的標題屬性
+0

感謝您的評論,不知何故...我仍然無法計算如何得到它的工作,即時通訊抱歉,但即時通訊非常新的工作與蟒蛇...我可以解決這個「單行」的代碼用我的實際代碼行:players = soup.find_all(「td」,{「data-title」:「Navn」}),因爲這個人需要在那裏...否則我沒有數據開始 – BulletEyeDK

+0

運行確切的代碼行給我這個錯誤:TypeError:'NoneType'對象不可迭代 – BulletEyeDK

+0

感謝您提供有用的信息,我使用'code' player_data = item.contents [0] ['title']。 「utf-8」)'code''謝謝;) – BulletEyeDK

相關問題