scrapy

0熱度

1回答

我目前正在試圖用scrapy刮取MSN新聞，並且在scrapy外殼內獲取瀏覽器的正確響應時遇到了一些困難。當我去https://www.msn.com/en-us/news/world在瀏覽器中，我看到：這是完美的，因爲這是該頁面應該是什麼樣子，但是當我運行命令scrapy shell https://www.msn.com/en-us/news/world，然後view(response)這

2熱度

1回答

scrapy，爲什麼scrapy.Request類默認調用parse（）方法？

爲什麼scrapy.Request類調用默認的parse（）方法，而我不太瞭解過程的scrapy.Request源代碼的一部分 class Request(object_ref): def __init__(self, url, callback=None, method='GET', headers=None, body=None, cookies=None, meta=No

-2熱度

2回答

如何在Python Scrapy

設置代理我已經使用Python 2.7和Scrapy 1.3.0 ，我需要設置代理服務器來訪問Web 如何設置呢？這是我在解析 if theurl not in self.ProcessUrls: self.ProcessUrls.append(theurl) yield scrapy.Request(theurl, callback=self.parse) ，如果我需要

0熱度

1回答

Scrapy：結合絕對和相對鏈接 - 缺少模式

我是scrapy的新手，正在努力加入與錯誤的絕對和相對鏈接：請求URL中缺少方案。這很奇怪，當我打印URL時，它似乎是正確的URL。我已經嘗試了一些不同的解決方案從stackoverflow，似乎沒有任何進展，任何幫助將不勝感激！我的代碼： import scrapy class CHSpider(scrapy.Spider): name = "ch_companydata"

2熱度

1回答

Scrapy在抓取下一個URL之前完成重定向

每當Scrapy獲取302時，該操作都會添加爲隊列中的最後一個項目。有沒有辦法強制Scrapy完成重定向，然後處理下一個url？

0熱度

2回答

Scrapy Linkextractor或規則不工作

我一直在試圖讓Scrapy的Linkextractor工作，但無濟於事。我希望它找到任何鏈接，然後調用不同的方法，只是打印出來顯示它的工作。這是我的蜘蛛： from scrapy.spiders import Rule, CrawlSpider from scrapy.linkextractors import LinkExtractor class TestSpider(CrawlS

0熱度

2回答

嘗試Scrapy +飛濺

所以我玩Scrapy &飛濺，我遇到了一些問題。我試着運行我的蜘蛛，並不斷得到HTTP錯誤。好吧，所以我試圖在瀏覽器中查看Splash。首先我做了「sudo docker run -p 8050：8050 -p 5023：5023 scrapinghub/splash --max-timeout 3600 -v3」開始運行Splash，然後我去了localhost：8050。 Web用戶界面打

1熱度

1回答

Scrapy結果重複

我試圖使用鏈接提取從本網站https://pagalworld.me/category/11598/Latest%20Bollywood%20Hindi%20Mp3%20Songs%20-%202017.html獲取歌曲的名稱，但結果是重複的。 import scrapy from scrapy import Request from scrapy.linkextractors import

1熱度

1回答

Scrapy有一個蜘蛛使用另一個嵌入的屬性

所以問題是我有一個蜘蛛爬過一個網站，颳了一堆產品信息...然後我想有另一個產品列表首先建立鏈接，並將其用於檢查目的。我意識到我可以在一個蜘蛛中完成這一切，但蜘蛛已經非常大（是25個不同域的通用蜘蛛），並希望保持這個儘可能分離。目前我創建這個主蜘蛛的情況下，像如下： def run_spiders(*urls, ajax=False): process = CrawlerProcess(

0熱度

1回答

Scrapy + Splash（Docker）問題

我在AWS Ubuntu服務器上設置了scrapy和scrapy-splash。它在一段時間內工作正常，但幾個小時後，我會開始得到這樣的錯誤消息; Traceback (most recent call last): File "/home/ubuntu/.local/lib/python3.5/site- packages/twisted/internet/defer.py", li