-1
我正在計劃製作一個網站,這個網站會從很多網站上刮掉大量每日更新的URL(JavaScript)。我做了一些研究,發現硒,已經取得了一些代碼從一個網站selenium scraping javascript
from selenium import webdriver
chrome_path = r"C:\Users\hessien\Desktop\chromedriver_win32\chromedriver.exe"
driver = webdriver.Chrome(chrome_path)
driver.get("http://example.com")
driver.find_element_by_xpath("""//*[@id="header"]/div/div[2]/div[3]/ul/li/label/a""").click()
element = driver.find_element_by_xpath("""//*[@id="s"]""")
element.send_keys("example")
driver.find_element_by_xpath("""//*[@id="searchform"]/button/span""").click()
driver.find_element_by_xpath("""//*[@id="contenedor"]/div/div[2]/div[1]/div[2]/article/div[2]/div[1]/a""").click()
driver.find_element_by_xpath("""//*[@id="playex"]/div[1]""").click()
elem = driver.find_element_by_xpath("""//*[@id="mediaplayer_media"]/video""").get_attribute("src");
print elem
,但是一些搜索後,我發現,硒主要用作不刮和爬行測試框架提取URL!..我的問題是硒可以做這項工作嗎?如果是,如何在HTML按鈕中執行python代碼?我也在使用Django。 如果不是,你能推薦任何可以完成任務的東西嗎?
它可以抓取JavaScript的網站? – cockro
你可以使用scrapy與啓用javascript的網頁抓取網站 – coolboy920
https://github.com/scrapy-plugins/scrapy-splash – coolboy920