scrapinghub

    0熱度

    1回答

    我是scrapy,python的初學者。我試圖在scrapinghub中部署spider代碼,並遇到以下錯誤。以下是代碼。 import scrapy from bs4 import BeautifulSoup,SoupStrainer import urllib2 from scrapy.selector import Selector from scrapy.http import H

    1熱度

    1回答

    當我嘗試部署使用shub deploy,我得到這個錯誤: Removing intermediate container fccf1ec715e6 Step 10 : RUN sudo -u nobody -E PYTHONUSERBASE=$PYTHONUSERBASE pip install --user --no-cache-dir -r /app/requirements.txt --->

    0熱度

    1回答

    我對spider進行了更改以使用scrapinghub API的某些方法,並嘗試使用「shub deploy」將其重新部署到Scrapy Cloud。 我發現了一個錯誤: 導入錯誤:沒有模塊名爲scrapinghub 它指向蜘蛛導入行 from scrapinghub import Connection SHUB版本2.5.0 scrapinghub(1.9.0) 我可以在本地運行蜘蛛。 任何

    0熱度

    1回答

    我想通過使用peewee將我的數據保存到遠程機器。當我運行我的履帶我發現下面的錯誤, File "/usr/local/lib/python2.7/site-packages/scrapy/commands/crawl.py", line 57, in run self.crawler_process.crawl(spname, **opts.spargs) File "/us

    0熱度

    1回答

    我已經部署了一些Scrapy蜘蛛來抓取可以從ScrapingHub以.csv格式下載的數據。 其中一些蜘蛛有FilePipeline,我用它將文件(pdf)下載到特定的文件夾。有什麼方法可以通過平臺或API從ScrapingHub中檢索這些文件嗎?

    0熱度

    1回答

    我正在用scrapy創建一個蜘蛛,並且我想使用MySQL數據庫在我的蜘蛛中獲取start_urls。現在我想知道是否可以將scrapy-cloud連接到遠程數據庫?

    2熱度

    2回答

    我正在使用scrapinghub很長一段時間。我有一些蜘蛛每天都在做一份工作。每個週末我都登錄收集刮取的數據。所以我最終不得不一次打開一個蜘蛛,一次打七個工作,下載數據並移動到下一個,然後是下一個蜘蛛,等等。 有沒有辦法一次獲得蜘蛛完成作業的所有提取數據?

    0熱度

    1回答

    的Python 3.4.2 我使用Scrapinghub API客戶端接口,可以在這裏找到: https://github.com/scrapinghub/python-scrapinghub 我颳了網站,並希望得到與 打印項目 for item in job.items(): print(item) 在python解釋器中,這工作正常,但是當我將腳本中的代碼導出(fe'test.p

    1熱度

    1回答

    我在我的Scrapy-Selenium Crawler中使用了Crawlera。 但我只需要使用IP從法國。 如何配置我的crawlera來做到這一點。 custom_settings = { 'DOWNLOADER_MIDDLEWARES' : {'scrapy_crawlera.CrawleraMiddleware': 600}, 'CRAWLERA_ENABLED'

    1熱度

    2回答

    我學習使用scrapinghub.com它運行在Python 2.x的 我寫它使用Scrapy一個劇本,我已經爬到一個字符串象下面這樣: %3Ctable%20width%3D%22100%25%22%3E%0D%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%