我想使用scrapy python爬取網站,大多數網站都成功完成,但大多數網站都給出了艱難的時間,因爲它們運行在Nodejs和angularjs框架或其他Java框架上,scrapy爬蟲無法從網頁中獲取詳細信息。請在這裏,我需要你的關注。期待您的最早幫助。使用scrapy python爬行NodeJs和AngularJs網站
在這裏你可以找到最初我使用的試驗基地的代碼。
import scrapy
from selenium import webdriver
from scrapy.http import TextResponse
class QuotesSpider(scrapy.Spider):
name = "quotes"
start_urls = ['https://en-ae.wadi.com/home_entertainment-televisions/?ref=navigation']
def parse(self, response):
self.log('i have just visited the ' + response.url)
yield{
'product_name' : response.css('p.description.ng-binding > span::text').extract_first(),
}
在此先感謝。
你的意思是JavaScript框架。鑑於這些網站具有動態內容,您將不得不使用動態網頁報廢技術。使用*如* [硒,(爲什麼不)與scrapy(http://stackoverflow.com/questions/17975471/selenium-with-scrapy-for-dynamic-page) – Kanak
你只抓住的HTML標記頁面 - 沒有實際執行Javascript。有Scrapy的擴展,或者選擇一個可以運行Javascript的工具。 – samiles
我只是想,但在點沒有到達,請您能不能給我一些片段或鏈接爲更好的幫助。謝謝 –