scrapy

    0熱度

    2回答

    我正在使用Scrapy來抓取商業目錄。我有幾個字段,我想要抓住他們的Facebook和Twitter鏈接。但是,並非每次都會有Facebook或Twitter鏈接。使用我現在的代碼只是完全跳過它們。 import scrapy from scrapy import Request # TODO: Find a way to scrape even if there is nothing th

    1熱度

    3回答

    我正在使用CrawlerProcess從腳本運行Scrapy (版本1.4.0)。網址來自用戶輸入。第一次運行良好,但在第二次,它給出了twisted.internet.error.ReactorNotRestartable錯誤。所以,程序停留在那裏。 履帶工藝段: process = CrawlerProcess({ 'USER_AGENT': 'Mozilla/4.0 (compat

    2熱度

    2回答

    我有一個蜘蛛,它從一個redis列表中獲取URL。 我想在沒有找到URL時很好地關閉spider。我試圖執行CloseSpider例外,但它似乎並沒有達到這個地步 def start_requests(self): while True: item = json.loads(self.__pop_queue()) if not item: raise

    0熱度

    1回答

    目的 爲了與Scrapy和Python兩個深層次的網絡爬蟲。 問題 該網站是在1頁,則存在履帶是繼鏈路,並提取正確的數據大約10個項目的結構。問題是這個結構對於10個頁面是遞歸的,但是這些最後頁面的鏈接是變化的並且註釋指向home1,但是指向home2。對於第2頁到第10頁,我們希望爬蟲執行相同的例程,因爲抓取工具所遵守的模式對於這些頁面是遞歸重複的。 網站結構 ->website.com --

    1熱度

    1回答

    我需要將嵌套字典作爲參數傳遞給get請求。 下面是它應該如何看待工作 query = {%22channel%22:%22rent%22,%22page%22:2,%22pageSize%22:12,%22filters%22:{%22agencyIds%22:[%22CBPHMG%22]}} 以下是我在Scrapy日誌中獲取: %7B%22pageSize%22:%20300,%20%22p

    0熱度

    1回答

    我是Python和scrapy的總新手,我必須刮完全用表(幾乎80表)構建的網站。 該網站的結構是這樣的: <table> <tr> <td class="header" colspan="2">something</td> </tr> </table> <br/> <table> <tr> <td class="header" colspan="2">something2</t

    0熱度

    1回答

    我正在學習如何使用Scrapy,同時刷新我在Python中的知識?/來自學校的編碼。 目前,我正在玩imdb top 250列表,但與JSON輸出文件掙扎。 我當前的代碼是: # -*- coding: utf-8 -*- import scrapy from top250imdb.items import Top250ImdbItem class ActorsSpider(scrap

    1熱度

    1回答

    我有以下Scrapy解析方法: def parse(self, response): item_loader = ItemLoader(item=MyItem(), response=response) for url in response.xpath('//img/@src').extract(): item_loader.add_value('image

    1熱度

    1回答

    我正在嘗試運行Scrapy(安裝有anaconda2)crawler作爲cron作業。到目前爲止沒有運氣。 下面是cron命令: * * * * * sh /home/username/anaconda2/folder/getdata.sh 這個cron運行,每1分鐘(我查了日誌文件,它似乎是確定) 這裏是SH文件中的代碼: #!/home/username/anaconda2/bin/pyt

    2熱度

    1回答

    我試圖在抓取每個頁面的截圖的同時抓取一個網站。到目前爲止,我已設法拼湊下面的代碼: import json import base64 import scrapy from scrapy_splash import SplashRequest class ExtractSpider(scrapy.Spider): name = 'extract' def star