我想製作一個通用的抓取工具,可以抓取和抓取任何類型的網站(包括AJAX網站)的所有數據。我已經廣泛搜索了互聯網,但找不到任何適當的鏈接可以解釋我如何Scrapy和Splash一起可以刮AJAX網站(其中包括分頁,表單數據和點擊按鈕之前頁面顯示)。我提到的每個鏈接都告訴我,Javascript網站可以使用Splash渲染,但沒有關於使用Splash渲染JS網站的很好的教程/解釋。請不要給我有關使用瀏覽器的解決方案(我想以編程方式執行所有操作,歡迎使用無頭瀏覽器,但我想使用Splash)。如何使用Scrapy和Splash來抓取基於AJAX的網站?
class FlipSpider(CrawlSpider):
name = "flip"
allowed_domains = ["www.amazon.com"]
start_urls = ['https://www.amazon.com/s/ref=nb_sb_noss?url=search-alias%3Daps&field-keywords=mobile']
rules = (Rule(LinkExtractor(), callback='lol', follow=True),
def parse_start_url(self,response):
yield scrapy.Request(response.url, self.lol, meta={'splash':{'endpoint':'render.html','args':{'wait': 5,'iframes':1,}}})
def lol(self, response):
"""
Some code
您是否遵守[飛濺DOC(https://github.com/scrapy-plugins/scrapy-splash#installation)?你確切的問題是什麼? –
是的,我做過。 Splash doc只是提到我們可以使用的命令。我想知道如何使用它們來運行一個網站的JavaScript來獲取動態內容... – Rohan
那麼如果你沒有關於飛濺特定的問題或問題,我不會複製粘貼文檔...如果你參考對於文檔,您應該可以抓取基於JavaScript的網站 –