selenium scraping javascript

-1

我正在計劃製作一個網站，這個網站會從很多網站上刮掉大量每日更新的URL（JavaScript）。我做了一些研究，發現硒，已經取得了一些代碼從一個網站selenium scraping javascript

from selenium import webdriver 
chrome_path = r"C:\Users\hessien\Desktop\chromedriver_win32\chromedriver.exe" 
driver = webdriver.Chrome(chrome_path) 
driver.get("http://example.com") 
driver.find_element_by_xpath("""//*[@id="header"]/div/div[2]/div[3]/ul/li/label/a""").click() 
element = driver.find_element_by_xpath("""//*[@id="s"]""") 
element.send_keys("example") 
driver.find_element_by_xpath("""//*[@id="searchform"]/button/span""").click() 
driver.find_element_by_xpath("""//*[@id="contenedor"]/div/div[2]/div[1]/div[2]/article/div[2]/div[1]/a""").click() 
driver.find_element_by_xpath("""//*[@id="playex"]/div[1]""").click() 
elem = driver.find_element_by_xpath("""//*[@id="mediaplayer_media"]/video""").get_attribute("src"); 
print elem

，但是一些搜索後，我發現，硒主要用作不刮和爬行測試框架提取URL！..我的問題是硒可以做這項工作嗎？如果是，如何在HTML按鈕中執行python代碼？我也在使用Django。如果不是，你能推薦任何可以完成任務的東西嗎？

來源

2017-02-01 cockro

如果你真的想做一個刮板，我建議你使用美麗的湯，這是一個Python庫，用於從HTML和XML文件中提取數據。您可以將python腳本與django集成，可以通過點擊來觸發它。以下是鏈接。

https://pypi.python.org/pypi/beautifulsoup4

來源

2017-02-01 17:50:44 coolboy920

它可以抓取JavaScript的網站？ – cockro

你可以使用scrapy與啓用javascript的網頁抓取網站 – coolboy920

https://github.com/scrapy-plugins/scrapy-splash – coolboy920

selenium scraping javascript

回答

相關問題