scrapinghub

0熱度

1回答

我是scrapy，python的初學者。我試圖在scrapinghub中部署spider代碼，並遇到以下錯誤。以下是代碼。 import scrapy from bs4 import BeautifulSoup,SoupStrainer import urllib2 from scrapy.selector import Selector from scrapy.http import H

1熱度

1回答

無法部署到Scrapinghub

當我嘗試部署使用shub deploy，我得到這個錯誤： Removing intermediate container fccf1ec715e6 Step 10 : RUN sudo -u nobody -E PYTHONUSERBASE=$PYTHONUSERBASE pip install --user --no-cache-dir -r /app/requirements.txt --->

0熱度

1回答

無法將項目部署到Scrapy Cloud

我對spider進行了更改以使用scrapinghub API的某些方法，並嘗試使用「shub deploy」將其重新部署到Scrapy Cloud。我發現了一個錯誤：導入錯誤：沒有模塊名爲scrapinghub 它指向蜘蛛導入行 from scrapinghub import Connection SHUB版本2.5.0 scrapinghub（1.9.0）我可以在本地運行蜘蛛。任何

0熱度

1回答

如何用scrapinghub使用peewee

我想通過使用peewee將我的數據保存到遠程機器。當我運行我的履帶我發現下面的錯誤， File "/usr/local/lib/python2.7/site-packages/scrapy/commands/crawl.py", line 57, in run self.crawler_process.crawl(spname, **opts.spargs) File "/us

0熱度

1回答

如何從ScrapingHub中提取文件？

我已經部署了一些Scrapy蜘蛛來抓取可以從ScrapingHub以.csv格式下載的數據。其中一些蜘蛛有FilePipeline，我用它將文件（pdf）下載到特定的文件夾。有什麼方法可以通過平臺或API從ScrapingHub中檢索這些文件嗎？

0熱度

1回答

ScrapingHub和遠程數據庫

我正在用scrapy創建一個蜘蛛，並且我想使用MySQL數據庫在我的蜘蛛中獲取start_urls。現在我想知道是否可以將scrapy-cloud連接到遠程數據庫？

2熱度

2回答

scrapinghub：從所有已完成的作業中下載所有項目

我正在使用scrapinghub很長一段時間。我有一些蜘蛛每天都在做一份工作。每個週末我都登錄收集刮取的數據。所以我最終不得不一次打開一個蜘蛛，一次打七個工作，下載數據並移動到下一個，然後是下一個蜘蛛，等等。有沒有辦法一次獲得蜘蛛完成作業的所有提取數據？

0熱度

1回答

python-scrapinghub，ascii/utf8？

的Python 3.4.2 我使用Scrapinghub API客戶端接口，可以在這裏找到： https://github.com/scrapinghub/python-scrapinghub 我颳了網站，並希望得到與打印項目 for item in job.items(): print(item) 在python解釋器中，這工作正常，但是當我將腳本中的代碼導出（fe'test.p

1熱度

1回答

如何在Crawlera中配置法國IP地址？

我在我的Scrapy-Selenium Crawler中使用了Crawlera。但我只需要使用IP從法國。如何配置我的crawlera來做到這一點。 custom_settings = { 'DOWNLOADER_MIDDLEWARES' : {'scrapy_crawlera.CrawleraMiddleware': 600}, 'CRAWLERA_ENABLED'

1熱度

2回答

如何URL轉換編碼字符串轉換成合適的unicode字符串在python

我學習使用scrapinghub.com它運行在Python 2.x的我寫它使用Scrapy一個劇本，我已經爬到一個字符串象下面這樣： %3Ctable%20width%3D%22100%25%22%3E%0D%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%