我想知道如何從一個網站使用美麗的湯爲一個城市(例如倫敦)抓取多個不同的網頁,而不必一遍又一遍地重複我的代碼。使用python從網站抓取多個網頁
我的目標是理想的第一抓取與一個城市
下面的所有頁面,我的代碼:
session = requests.Session()
session.cookies.get_dict()
url = 'http://www.citydis.com'
headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36'}
response = session.get(url, headers=headers)
soup = BeautifulSoup(response.content, "html.parser")
metaConfig = soup.find("meta", property="configuration")
jsonUrl = "https://www.citydis.com/s/results.json?&q=Paris& customerSearch=1&page=0"
response = session.get(jsonUrl, headers=headers)
js_dict = (json.loads(response.content.decode('utf-8')))
for item in js_dict:
headers = js_dict['searchResults']["tours"]
prices = js_dict['searchResults']["tours"]
for title, price in zip(headers, prices):
title_final = title.get("title")
price_final = price.get("price")["original"]
print("Header: " + title_final + " | " + "Price: " + price_final)
輸出爲下列之一:
Header: London Travelcard: 1 Tag lang unbegrenzt reisen | Price: 19,44 €
Header: 105 Minuten London bei Nacht im verdecklosen Bus | Price: 21,21 €
Header: Ivory House London: 4 Stunden mittelalterliches Bankett| Price: 58,92 €
Header: London: Themse Dinner Cruise | Price: 96,62 €
它給我只返回第一頁的結果(4結果),但我想要獲得倫敦的所有結果(必須超過200個結果)
你能給我什麼建議嗎?我想,我都數不過來了就jsonURL的網頁,但不知道該怎麼辦呢
UPDATE
感謝幫助,I'm抽到了一步。
在這種情況下,我只能抓取一頁(頁面= 0),但我想抓取前10頁。因此,我的做法是以下幾點:從代碼
相關片段:
soup = bs4.BeautifulSoup(response.content, "html.parser")
metaConfig = soup.find("meta", property="configuration")
page = 0
while page <= 11:
page += 1
jsonUrl = "https://www.citydis.com/s/results.json?&q=Paris& customerSearch=1&page=" + str(page)
response = session.get(jsonUrl, headers=headers)
js_dict = (json.loads(response.content.decode('utf-8')))
for item in js_dict:
headers = js_dict['searchResults']["tours"]
prices = js_dict['searchResults']["tours"]
for title, price in zip(headers, prices):
title_final = title.get("title")
price_final = price.get("price")["original"]
print("Header: " + title_final + " | " + "Price: " + price_final)
I'm得到結果返回一個特定網頁,但不是全部。除此之外,我還會收到一條錯誤消息。這與我爲什麼沒有取回所有結果有關嗎?
輸出:
Traceback (most recent call last):
File "C:/Users/Scripts/new.py", line 19, in <module>
AttributeError: 'list' object has no attribute 'update'
感謝您的幫助
如果你想正確的抓取網頁的方式尋找'xpaths'。它會使你的代碼減少很多,也許在你上面做的最多5行。它是做任何與抓取和抓取有關的標準方式。 – anekix
感謝您的信息。將嘗試一下。儘管如此,你能否提供一些反饋,告訴我如何用上述方法解決上述問題? –