這個特定的頁面並不是最簡單的情況下啓動網頁抓取,因爲它是相當「動態」,它涉及額外的請求和JavaScript執行加載頁面完全。
最高級的選項是使用真實的瀏覽器加載頁面,等待完整的加載並解析HTML。工作示例使用selenium
:
from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
driver = webdriver.Firefox()
driver.maximize_window()
wait = WebDriverWait(driver, 10)
url = 'http://www.flashscore.com/'
driver.get(url)
# wait for the complete page load
wait.until(EC.invisibility_of_element_located((By.ID, "preload")))
# parse the HTML
soup = BeautifulSoup(driver.page_source, "html.parser")
print(soup.find("div", id = "fscon"))
driver.close()
獎勵積分,如果你能使用的要求去做;) –
@PadraicCunningham我知道你已經準備了答案和使用要求所有這19個小時的問題被張貼後的代碼: )雖然有趣的情況!謝謝。 – alecxe
大聲笑,設想它,直到我打開開發人員工具,並看看請求,然後匆忙關閉開發人員工具:) –