你好,我刮除ABC新聞網站上最新的新聞,我的代碼正在刮這個樣子的:有沒有辦法擦除或分離網絡抓取數據?在Python
<a href="/Politics/huckabee-draws-cheers-fundraiser-west-bank-settlement/story?id=35615831" name="lpos=widget[A_3_freeformlite_4380645_homepage]&lid=link[Headline_2]">Huckabee Draws Cheers at Fundraiser for West Bank Settlement<span class="metaH_timeDay">41 minutes ago</span></a>
但是當你看到我得到一個span標籤內的標籤,所以當我與BeautifulSoup湊這個我得到這樣的信息:
赫卡比在籌款繪製乾杯西岸Settlement41分鐘前
但它給我的時間正好緊挨着我的數據,我想已經分居41分鐘所以它看起來是這樣的:
赫卡比在籌款繪製乾杯西岸定居42分鐘前
或至少刪除它!
我的代碼看起來是這樣的:
import requests
from bs4 import BeautifulSoup
url = "http://abcnews.go.com/"
r = requests.get(url)
soup = BeautifulSoup(r.content, "lxml")
for x in range(1,10):
for link in soup.find_all("a",{"name": "lpos=widget[A_3_freeformlite_4380645_homepage]&lid=link[Headline_"+str(x)+"]"}):
print link.text
print link.find_all("",{"class": "metaH_timeDay"})[0].text
print ""
有人能幫助我嗎?