Python網頁抓拍

我是網頁抓取機票網站。我的問題是：我正在使用Chrome開發人員來識別我想要廢棄的HTML對象的類。但是，我的代碼沒有找到它。看起來我沒有下載我在Chrome Developer Extension中看到的HTML代碼。（檢查項目...）Python網頁抓拍

import requests 
from BeautifulSoup import BeautifulSoup 

url = 'http://www.momondo.de/flightsearch/?Search=true&TripType=2&SegNo=2&SO0=BOS&SD0=LON&SDP0=07-09-2016&SO1=LON&SD1=BOS&SDP1=12-09-2016&AD=1&TK=ECO&DO=false&NA=false' 
req = requests.get(url) 
soup = BeautifulSoup(req.content) 
x = soup.findAll("span" ,{"class":"value"})

來源

2016-08-23 Fabian

如果我發現有人在刮我的網站，爲自己的利潤，我會阻止用戶訪問的儘快。請記住，網站有時會提供您可以使用的API。另外，當他們改變他們的網站佈局/結構時會發生什麼？ –

請嘗試以下方法：

from bs4 import BeautifulSoup 
import urllib.request 

source = urllib.request.urlopen('http://www.momon...e&NA=false').read() 
soup = BeautifulSoup(source,'html5lib') 
for item in soup.find_all("span", class_="value"): 
    print(item.text)

有了這個，你可以刮與類「價值」的網頁中所有的跨度。如果您想要查看整個html元素及其屬性，而不是僅查看內容，請從print(item.text)中刪除.text。

您可能需要使用pip安裝html5lib，如果遇到問題，請嘗試以管理員身份運行CMD（假設您使用的是Windows）。

來源

2017-05-02 18:48:01 creativename

你也可以試試這個：

for values_in_x in x: 

    print(values_in_x.text)

來源

2017-05-30 07:39:46

Python網頁抓拍

回答

相關問題