我必須刮一個使用javascript顯示內容的網站。我只能使用標準庫,因爲我將在沒有任何瀏覽器的服務器上運行此腳本。我發現硒,但它需要一個瀏覽器,在我的情況下是不可能安裝。如何使用python標準庫僅捕獲javascript網頁
任何想法或解決方案?
我必須刮一個使用javascript顯示內容的網站。我只能使用標準庫,因爲我將在沒有任何瀏覽器的服務器上運行此腳本。我發現硒,但它需要一個瀏覽器,在我的情況下是不可能安裝。如何使用python標準庫僅捕獲javascript網頁
任何想法或解決方案?
看看Ghost.py http://jeanphix.me/Ghost.py/。它不需要瀏覽器。
pip install Ghost.py
from ghost import Ghost
ghost = Ghost()
page, resources = ghost.open('http://stackoverflow.com/')
你沒有提到關於網站如何使用JavaScript的東西,但如果它使用的是任何類型的用戶互動後觸發AJAX請求,則需要使用類似硒使自動化該行爲。在這裏,你可以找到a short tutorial of how to scrape with Scrapy + Selenium。這當然需要以前在您的機器上安裝的瀏覽器。
你爲什麼不依靠Scrapy來完成這項任務?避免重新發明輪子。 – narko
您可以使用[請求](http://www.python-requests.org/en/latest/)庫。 –
糟糕,Beautifulsoup是相當不錯的圖書館 – Tushar