2017-02-01 53 views
-1

我正在計劃製作一個網站,這個網站會從很多網站上刮掉大量每日更新的URL(JavaScript)。我做了一些研究,發現硒,已經取得了一些代碼從一個網站selenium scraping javascript

from selenium import webdriver 
chrome_path = r"C:\Users\hessien\Desktop\chromedriver_win32\chromedriver.exe" 
driver = webdriver.Chrome(chrome_path) 
driver.get("http://example.com") 
driver.find_element_by_xpath("""//*[@id="header"]/div/div[2]/div[3]/ul/li/label/a""").click() 
element = driver.find_element_by_xpath("""//*[@id="s"]""") 
element.send_keys("example") 
driver.find_element_by_xpath("""//*[@id="searchform"]/button/span""").click() 
driver.find_element_by_xpath("""//*[@id="contenedor"]/div/div[2]/div[1]/div[2]/article/div[2]/div[1]/a""").click() 
driver.find_element_by_xpath("""//*[@id="playex"]/div[1]""").click() 
elem = driver.find_element_by_xpath("""//*[@id="mediaplayer_media"]/video""").get_attribute("src"); 
print elem 

,但是一些搜索後,我發現,硒主要用作不刮和爬行測試框架提取URL!..我的問題是硒可以做這項工作嗎?如果是,如何在HTML按鈕中執行python代碼?我也在使用Django。 如果不是,你能推薦任何可以完成任務的東西嗎?

回答

0

如果你真的想做一個刮板,我建議你使用美麗的湯,這是一個Python庫,用於從HTML和XML文件中提取數據。 您可以將python腳本與django集成,可以通過點擊來觸發它。 以下是鏈接。

https://pypi.python.org/pypi/beautifulsoup4

+0

它可以抓取JavaScript的網站? – cockro

+0

你可以使用scrapy與啓用javascript的網頁抓取網站 – coolboy920

+0

https://github.com/scrapy-plugins/scrapy-splash – coolboy920