scrapy

    4熱度

    1回答

    我試圖使用2Captcha.com服務解決驗證碼問題。首先,我保存驗證碼圖像: urllib.urlretrieve(captcha_image_link, 'captcha.jpg') 接下來我需要將圖像上傳到服務器以識別它。使用簡單的請求,就像它一樣簡單 files = {'file': open('captcha.jpg', 'rb')} payload = {'key': TWOCA

    0熱度

    1回答

    我只有通過使用刮JS內容成功以下爲請求 def start_requests(self): for url in self.start_urls: yield scrapy.Request( url, self.parse, meta={ 'splash': { 'endpoint': 'render.html', 'args': {'

    0熱度

    1回答

    我是一個python新手,無法在我的mac os 10.10.15上安裝scrapy。我安裝了brew並能夠設置virtualenv。 (scrapdata) ---------- $ pip3 install scrapy Collecting scrapy Using cached Scrapy-1.4.0-py2.py3-none-any.whl Collecting py

    0熱度

    1回答

    我使用Scrapy來抓取一些數據。每當我在瀏覽器上打開product detail,並檢查this request被瀏覽器請求時,總是返回相同的正確內容,不含字符'?????' 但是,如果我在瀏覽器上打開上面的請求,然後它返回正確的內容約10倍。然後,它通過添加字符'?????'返回錯誤的內容 你能解釋爲什麼會出現這個問題嗎?以及如何讓Scrapy充當真正的瀏覽器? 這是正確的內容 {"itemi

    0熱度

    1回答

    我有我的Mac上安裝並運行scrapyd,但我想重新啓動或殺死它 - 我認爲這可能是我通過點安裝後無法使scrayd-client運行的原因。 我無法找到殺死或重新啓動它的方法。我通過pip安裝並運行以下命令啓動它: scrapyd 任何想法?

    0熱度

    2回答

    我按照安裝指南https://docs.scrapy.org/en/latest/intro/install.html 但我安裝失敗。當我點安裝scrapy時,最後安裝失敗。 ------在11:47 --- 我無法正常運行scrapy編輯。 ---當我運行它---- Traceback (most recent call last): File "/usr/local/bin/scra

    -1熱度

    2回答

    跳到下一個我喜歡寫BFO寬履帶,其執行以下操作: 開始第一URL 試圖找到鏈接到Impressum RegEx: '.*mpressum.*'(翻譯:印記) 檢查是否符合某些條件。在我的情況下,如果郵政編碼在一定範圍內 如果滿足條件繼續爬行頁面 如果不符合條件,請停止對該域進行爬網以將其從未來爬網列入黑名單。 與未來域繼續 我怎樣才能實現Scrapy這種行爲? 基本上我這樣做是因爲我想回答以下問題

    1熱度

    1回答

    我已經嘗試使用Xpath複製Scrapy教程,並繼續運行到ERROR: Spider must return Request, BaseItem or None, got 'dict' in <GET http://quotes.toscrape.com/>不知道如何解決這個問題。 我想分享兩個文件片段應該是剛好夠調試: 1)我的蜘蛛quotes_spider.py from scrapy.spi

    0熱度

    1回答

    我是scrapy和Python的新手,所以我的問題可能很簡單。通過使用現有的網站指南,我寫了一個刮板,它刮掉網站的頁面,並在輸出文件中顯示圖像URL,名稱和...。我想下載一個目錄中的圖像,但輸出目錄是空的! 這裏是我的代碼: myspider.py import scrapy class BrickSetSpider(scrapy.Spider): name = 'brick_spider`

    0熱度

    1回答

    如何爲monster.com創建抓取工具來抓取所有頁面。對於「下一頁」鏈接,monster.com調用JavaScript函數,但scrapy不承認的JavaScript 這裏是我的代碼,它不工作的分頁: import scrapy class MonsterComSpider(scrapy.Spider): name = 'monster.com' allowed_doma