您應該嘗試檢查所需數據的HTML代碼,嘗試在作者姓名的HTML代碼中查找,源代碼中的簡單Ctrl+F: Hans
將執行此操作。你會看到,在第一時間"Hans"
可以在源代碼中發現在這段代碼:
<div class="js-article"
data-page-title="Miljöpartiet vill få med miljardsatsning på skolor redan i höstbudgeten - DN.SE"
data-article-url="/nyheter/sverige/mp-vill-snabba-pa-miljardsatsning-pa-svaga-skolor/"
data-authors="Hans Rosén"
data-section-display-name="Sverige"
data-article-friendly-id="dn.epi.1739446"
data-article-title="MP vill snabba på miljardsatsning på svaga skolor"
data-article-publish-date="2017-05-11"
data-article-publish-time="19:53"
data-is-premium="true"
data-access-level="Limited"
data-is-standalone="false"
data-article-main-section="nyheter"
data-article-sub-section="sverige">
注意文章的日期和冠軍已經在這段代碼。轉入下一個是學習Python代碼來提取這片從網站的信息,我們就可以開始:
import requests
from bs4 import BeautifulSoup
r = requests.get("http://www.dn.se/nyheter/sverige/mp-vill-snabba-pa-miljardsatsning-pa-svaga-skolor/")
data = r.text
soup = BeautifulSoup(data, 'html.parser')
article_data = soup.find("div", class_="js-article")
現在我們可以做到這一點,以提取精確的數據:
title = article_data["data-article-title"]
date = article_data["data-article-publish-date"]
time = article_data["data-article-publish-time"]
author = article_data["data-authors"]
嘗試使用類似的方法來提取物品的整個身體,你會看到身體內div class="article__body-content"
源代碼,並提取我們可以簡單地使用soup.find()
:
article_body = soup.find("div", class_="article__body-content")
謝謝,這正是我需要開始的!併爲快速回復。 – Lamar
答案要好得多。請注意,您的帖子可能會被刪除。這不是一個正在尋找解決方案的問題。您正在尋找某人爲自己做,並且可以重複使用。 因此,這個問題太寬泛(不具體也沒有幫助)給你。 學習Python和BeautifulSoup會更好,有很多Youtube視頻,非常有幫助。請回來一個更具體的問題, –
@FaultyFuse準確地說,我想到了標記問題,但我試圖解釋如何解析HTML,因爲他不知道在代碼中尋找他想要的數據的位置。 –