使用scrapy python爬行NodeJs和AngularJs網站

我想使用scrapy python爬取網站，大多數網站都成功完成，但大多數網站都給出了艱難的時間，因爲它們運行在Nodejs和angularjs框架或其他Java框架上，scrapy爬蟲無法從網頁中獲取詳細信息。請在這裏，我需要你的關注。期待您的最早幫助。使用scrapy python爬行NodeJs和AngularJs網站

在這裏你可以找到最初我使用的試驗基地的代碼。

import scrapy 
from selenium import webdriver 
from scrapy.http import TextResponse 

class QuotesSpider(scrapy.Spider): 
    name = "quotes" 
    start_urls = ['https://en-ae.wadi.com/home_entertainment-televisions/?ref=navigation'] 

    def parse(self, response): 
     self.log('i have just visited the ' + response.url) 
     yield{ 
      'product_name' : response.css('p.description.ng-binding > span::text').extract_first(), 
     }

在此先感謝。

來源

2017-04-04 Muhammad Zia Ur Rahman

你的意思是JavaScript框架。鑑於這些網站具有動態內容，您將不得不使用動態網頁報廢技術。使用*如* [硒，（爲什麼不）與scrapy（http://stackoverflow.com/questions/17975471/selenium-with-scrapy-for-dynamic-page） – Kanak

你只抓住的HTML標記頁面 - 沒有實際執行Javascript。有Scrapy的擴展，或者選擇一個可以運行Javascript的工具。 – samiles

我只是想，但在點沒有到達，請您能不能給我一些片段或鏈接爲更好的幫助。謝謝 –

退房splash：將允許你抓取基於JavaScript的網站。

您也可以創建自己的下載中間件和使用Selenium：How to write customize Downloader Middleware for selenium and Scrapy?

希望這有助於。

來源

2017-04-05 12:25:53

感謝@Blanquer Adrien的回覆。 –

沒問題@MuhammadZiaUrRahman，希望你能成功地抓取您的網站。 –

使用scrapy python爬行NodeJs和AngularJs網站

回答

相關問題