我很新的Python和我試圖從一個網站抽取數據,但我需要的所有頁面,到目前爲止,我有:刮網站使用Python +美麗的湯4個所有頁面
import requests
from bs4 import BeautifulSoup
r = requests.get ("http://www.somesite.com/records/08-jan-2016/")
r.content
soup = BeautifulSoup(r.content, "html.parser")
full_info = soup.find_all("div", {"class": "col-sm-10"})
for item in full_info : print (item.text)
這代碼打印來自當前頁面的數據,我如何管理從所有頁面獲取數據並導出到文件。
問候
定義「所有頁面」。它們是可以遞歸訪問的鏈接嗎? (即,你可以用'wget -r'來獲取它們)它們是不同的URL嗎?他們互相鏈接嗎?你通常會如何獲得鏈接?你似乎有BeautifulSoup漂亮。你可以使用'open'寫入一個文件。 – Kupiakos
感謝您的回覆,網址格式設置爲日期: 「http://www.somesite.com/records/08-jan-2016/」 「http://www.somesite.com/records/09- jan-2016 /「 」http://www.somesite.com/records/10-jan-2016/「 等等,直到今天,在每個頁面的末尾都有一個預覽按鈕和下一個日期。 – user1385619
你怎麼知道哪些日期有效?你只是假設所有的日期,還是你有一個列表? – Kupiakos