scrapy

4熱度

1回答

我試圖使用2Captcha.com服務解決驗證碼問題。首先，我保存驗證碼圖像： urllib.urlretrieve(captcha_image_link, 'captcha.jpg') 接下來我需要將圖像上傳到服務器以識別它。使用簡單的請求，就像它一樣簡單 files = {'file': open('captcha.jpg', 'rb')} payload = {'key': TWOCA

0熱度

1回答

如何通過旋轉代理使用scrapy-splash？

我只有通過使用刮JS內容成功以下爲請求 def start_requests(self): for url in self.start_urls: yield scrapy.Request( url, self.parse, meta={ 'splash': { 'endpoint': 'render.html', 'args': {'

0熱度

1回答

我是一個python新手，無法在我的Mac OS 10.10.15上安裝scrapy。我安裝了brew並能夠設置virtualenv

我是一個python新手，無法在我的mac os 10.10.15上安裝scrapy。我安裝了brew並能夠設置virtualenv。 (scrapdata) ---------- $ pip3 install scrapy Collecting scrapy Using cached Scrapy-1.4.0-py2.py3-none-any.whl Collecting py

0熱度

1回答

GET請求返回不同的JSON內容

我使用Scrapy來抓取一些數據。每當我在瀏覽器上打開product detail，並檢查this request被瀏覽器請求時，總是返回相同的正確內容，不含字符'?????' 但是，如果我在瀏覽器上打開上面的請求，然後它返回正確的內容約10倍。然後，它通過添加字符'?????'返回錯誤的內容你能解釋爲什麼會出現這個問題嗎？以及如何讓Scrapy充當真正的瀏覽器？這是正確的內容 {"itemi

0熱度

1回答

重新啓動或殺死Scrapyd服務器

我有我的Mac上安裝並運行scrapyd，但我想重新啓動或殺死它 - 我認爲這可能是我通過點安裝後無法使scrayd-client運行的原因。我無法找到殺死或重新啓動它的方法。我通過pip安裝並運行以下命令啓動它： scrapyd 任何想法？

0熱度

2回答

在Ubuntu上安裝Scrapy14.04

我按照安裝指南https://docs.scrapy.org/en/latest/intro/install.html 但我安裝失敗。當我點安裝scrapy時，最後安裝失敗。 ------在11:47 --- 我無法正常運行scrapy編輯。 ---當我運行它---- Traceback (most recent call last): File "/usr/local/bin/scra

-1熱度

2回答

Scrapy：停止爬行一個域，如果條件滿足

跳到下一個我喜歡寫BFO寬履帶，其執行以下操作：開始第一URL 試圖找到鏈接到Impressum RegEx: '.*mpressum.*'（翻譯：印記）檢查是否符合某些條件。在我的情況下，如果郵政編碼在一定範圍內如果滿足條件繼續爬行頁面如果不符合條件，請停止對該域進行爬網以將其從未來爬網列入黑名單。與未來域繼續我怎樣才能實現Scrapy這種行爲？基本上我這樣做是因爲我想回答以下問題

1熱度

1回答

Scrapy錯誤：蜘蛛必須返回請求，BaseItem或無，得到'字典'

我已經嘗試使用Xpath複製Scrapy教程，並繼續運行到ERROR: Spider must return Request, BaseItem or None, got 'dict' in <GET http://quotes.toscrape.com/>不知道如何解決這個問題。我想分享兩個文件片段應該是剛好夠調試： 1）我的蜘蛛quotes_spider.py from scrapy.spi

0熱度

1回答

使用scrapy從網站下載並保存圖像

我是scrapy和Python的新手，所以我的問題可能很簡單。通過使用現有的網站指南，我寫了一個刮板，它刮掉網站的頁面，並在輸出文件中顯示圖像URL，名稱和...。我想下載一個目錄中的圖像，但輸出目錄是空的！這裏是我的代碼： myspider.py import scrapy class BrickSetSpider(scrapy.Spider): name = 'brick_spider`

0熱度

1回答

Scrapy monster.com使用scrapy框架

如何爲monster.com創建抓取工具來抓取所有頁面。對於「下一頁」鏈接，monster.com調用JavaScript函數，但scrapy不承認的JavaScript 這裏是我的代碼，它不工作的分頁： import scrapy class MonsterComSpider(scrapy.Spider): name = 'monster.com' allowed_doma