scrapy

    0熱度

    1回答

    我目前正在試圖用scrapy刮取MSN新聞,並且在scrapy外殼內獲取瀏覽器的正確響應時遇到了一些困難。 當我去https://www.msn.com/en-us/news/world在瀏覽器中,我看到: 這是完美的,因爲這是該頁面應該是什麼樣子,但是當我運行命令scrapy shell https://www.msn.com/en-us/news/world,然後view(response)這

    2熱度

    1回答

    爲什麼scrapy.Request類調用默認的parse()方法,而我不太瞭解過程 的scrapy.Request源代碼的一部分 class Request(object_ref): def __init__(self, url, callback=None, method='GET', headers=None, body=None, cookies=None, meta=No

    -2熱度

    2回答

    設置代理我已經使用Python 2.7和Scrapy 1.3.0 ,我需要設置代理服務器來訪問Web 如何設置呢? 這是我在解析 if theurl not in self.ProcessUrls: self.ProcessUrls.append(theurl) yield scrapy.Request(theurl, callback=self.parse) ,如果我需要

    0熱度

    1回答

    我是scrapy的新手,正在努力加入與錯誤的絕對和相對鏈接:請求URL中缺少方案。這很奇怪,當我打印URL時,它似乎是正確的URL。 我已經嘗試了一些不同的解決方案從stackoverflow,似乎沒有任何進展,任何幫助將不勝感激! 我的代碼: import scrapy class CHSpider(scrapy.Spider): name = "ch_companydata"

    2熱度

    1回答

    每當Scrapy獲取302時,該操作都會添加爲隊列中的最後一個項目。有沒有辦法強制Scrapy完成重定向,然後處理下一個url?

    0熱度

    2回答

    我一直在試圖讓Scrapy的Linkextractor工作,但無濟於事。 我希望它找到任何鏈接,然後調用不同的方法,只是打印出來顯示它的工作。 這是我的蜘蛛: from scrapy.spiders import Rule, CrawlSpider from scrapy.linkextractors import LinkExtractor class TestSpider(CrawlS

    0熱度

    2回答

    所以我玩Scrapy &飛濺,我遇到了一些問題。 我試着運行我的蜘蛛,並不斷得到HTTP錯誤。好吧,所以我試圖在瀏覽器中查看Splash。 首先我做了「sudo docker run -p 8050:8050 -p 5023:5023 scrapinghub/splash --max-timeout 3600 -v3」開始運行Splash,然後我去了localhost:8050。 Web用戶界面打

    1熱度

    1回答

    我試圖使用鏈接提取從本網站https://pagalworld.me/category/11598/Latest%20Bollywood%20Hindi%20Mp3%20Songs%20-%202017.html獲取歌曲的名稱,但結果是重複的。 import scrapy from scrapy import Request from scrapy.linkextractors import

    1熱度

    1回答

    所以問題是我有一個蜘蛛爬過一個網站,颳了一堆產品信息...然後我想有另一個產品列表首先建立鏈接,並將其用於檢查目的。 我意識到我可以在一個蜘蛛中完成這一切,但蜘蛛已經非常大(是25個不同域的通用蜘蛛),並希望保持這個儘可能分離。目前我創建這個主蜘蛛的情況下,像如下: def run_spiders(*urls, ajax=False): process = CrawlerProcess(

    0熱度

    1回答

    我在AWS Ubuntu服務器上設置了scrapy和scrapy-splash。它在一段時間內工作正常,但幾個小時後,我會開始得到這樣的錯誤消息; Traceback (most recent call last): File "/home/ubuntu/.local/lib/python3.5/site- packages/twisted/internet/defer.py", li