scrapy

0熱度

2回答

我正在使用Scrapy來抓取商業目錄。我有幾個字段，我想要抓住他們的Facebook和Twitter鏈接。但是，並非每次都會有Facebook或Twitter鏈接。使用我現在的代碼只是完全跳過它們。 import scrapy from scrapy import Request # TODO: Find a way to scrape even if there is nothing th

1熱度

3回答

第一次運行後Scrapy'twisted.internet.error.ReactorNotRestartable'錯誤

我正在使用CrawlerProcess從腳本運行Scrapy （版本1.4.0）。網址來自用戶輸入。第一次運行良好，但在第二次，它給出了twisted.internet.error.ReactorNotRestartable錯誤。所以，程序停留在那裏。履帶工藝段： process = CrawlerProcess({ 'USER_AGENT': 'Mozilla/4.0 (compat

2熱度

2回答

Scrapy關閉蜘蛛如果沒有網址爬行

我有一個蜘蛛，它從一個redis列表中獲取URL。我想在沒有找到URL時很好地關閉spider。我試圖執行CloseSpider例外，但它似乎並沒有達到這個地步 def start_requests(self): while True: item = json.loads(self.__pop_queue()) if not item: raise

0熱度

1回答

抓取多個頁面與Scrapy

目的爲了與Scrapy和Python兩個深層次的網絡爬蟲。問題該網站是在1頁，則存在履帶是繼鏈路，並提取正確的數據大約10個項目的結構。問題是這個結構對於10個頁面是遞歸的，但是這些最後頁面的鏈接是變化的並且註釋指向home1，但是指向home2。對於第2頁到第10頁，我們希望爬蟲執行相同的例程，因爲抓取工具所遵守的模式對於這些頁面是遞歸重複的。網站結構 ->website.com --

1熱度

1回答

防止scrapy從url中刪除方括號和大括號

我需要將嵌套字典作爲參數傳遞給get請求。下面是它應該如何看待工作 query = {%22channel%22:%22rent%22,%22page%22:2,%22pageSize%22:12,%22filters%22:{%22agencyIds%22:[%22CBPHMG%22]}} 以下是我在Scrapy日誌中獲取： %7B%22pageSize%22:%20300,%20%22p

0熱度

1回答

Scrapy：如何刮出條件表中的鏈接

我是Python和scrapy的總新手，我必須刮完全用表（幾乎80表）構建的網站。該網站的結構是這樣的： <table> <tr> <td class="header" colspan="2">something</td> </tr> </table> <br/> <table> <tr> <td class="header" colspan="2">something2</t

0熱度

1回答

Scrapy - 創建嵌套的JSON對象

我正在學習如何使用Scrapy，同時刷新我在Python中的知識？/來自學校的編碼。目前，我正在玩imdb top 250列表，但與JSON輸出文件掙扎。我當前的代碼是： # -*- coding: utf-8 -*- import scrapy from top250imdb.items import Top250ImdbItem class ActorsSpider(scrap

1熱度

1回答

Scrapy - 基於條件爬行

我有以下Scrapy解析方法： def parse(self, response): item_loader = ItemLoader(item=MyItem(), response=response) for url in response.xpath('//img/@src').extract(): item_loader.add_value('image

1熱度

1回答

以Cron作業運行Anaconda-Scrapy

我正在嘗試運行Scrapy（安裝有anaconda2）crawler作爲cron作業。到目前爲止沒有運氣。下面是cron命令： * * * * * sh /home/username/anaconda2/folder/getdata.sh 這個cron運行，每1分鐘（我查了日誌文件，它似乎是確定）這裏是SH文件中的代碼： #!/home/username/anaconda2/bin/pyt

2熱度

1回答

Scrapy Splash截圖？

我試圖在抓取每個頁面的截圖的同時抓取一個網站。到目前爲止，我已設法拼湊下面的代碼： import json import base64 import scrapy from scrapy_splash import SplashRequest class ExtractSpider(scrapy.Spider): name = 'extract' def star