scrapy

    1熱度

    2回答

    使用我很新的Scrapy,想嘗試以下操作: 從網頁中提取一些值,將其存儲在一個變量,在我的主要腳本中使用它。 所以我也跟着他們的教程,並改變了代碼爲我的目的: import scrapy from scrapy.crawler import CrawlerProcess class QuotesSpider(scrapy.Spider): name = "quotes"

    0熱度

    1回答

    我正在按照教程使用scrapy庫從網站上刮掉多個頁面。本教程使用yield語句通過css選擇器和xpath選擇器從頁面的html和css結構中獲取信息。我決定使用if語句來檢查搜索查詢是否找到結果,並使用else語句來輸出當搜索查詢沒有遇到結果時要執行的操作。當代碼執行提取公司名稱的else語句,以及位置和銷售字段時,我想要一個傳達'未找到'的自定義輸出字符串時出現問題。 當我運行該腳本,我得到以

    1熱度

    2回答

    我目前正在使用Scrapy Python庫。 首先,我對Fitbit的登錄頁面(https://www.fitbit.com/login)進行FormRequest調用以記錄自己的身份。然後,我向Fitbit的API(https://api.fitbit.com)發出近100條請求。 爲了不壓制API(並且不會被禁止!),我想在settings.py文件中使用DOWNLOAD_DELAY設置請求之

    0熱度

    2回答

    我有這樣的代碼: <div class="col-md-12"> <strong>Ingredients:</strong> TOMATOES (TOMATOES AND FIRE ROASTED TOMATOES, TOMATO JUICE, CITRIC ACID, CALCIUM CHLORIDE), WHITE WINE VINEGAR, CARROTS. <span style

    1熱度

    2回答

    我需要一個選擇器刮歐元符號(\ u20ac)後的值。 <Selector xpath='//*[@class="col-sm-4"]/text()' data=u'\r\n\t\t \u20ac 30.000,00'> 我嘗試了幾十個變種,我在這裏找到了stackoverflow和elsewere,但我不能得到它。 邊像https://regexr.com/告訴我這樣的事情: respon

    0熱度

    1回答

    我正在開發一個非常簡單的Scrapy +飛濺項目來抓取JavaScript網站。這是我的代碼: splashtest.py: import scrapy from scrapy_splash import SplashRequest class SplashSpider(scrapy.Spider): name = 'splash_spider' def start_r

    0熱度

    2回答

    我正在使用CSVFeedSpider來抓取本地csv文件(foods.csv)。 這就是: calories name price 650 Belgian Waffles $5.95 900 Strawberry Belgian Waffles $7.95 900 Berry-Berry Belgian Waffles $8.95 600 Fren

    0熱度

    1回答

    我有一隻蜘蛛會按時運行。蜘蛛輸入基於日期。從上次刮擦日期到今天的日期。所以問題是如何在Scrapy項目中保存最後一次刮擦的日期?有一個選項可以使用pkjutil模塊從scrapy設置獲取數據,但是我沒有在文檔中找到關於如何在該文件中寫入數據的任何參考。任何想法?也許是一種選擇? P.S.我的另一種選擇是爲此使用一些免費的遠程MySql數據庫。但如果簡單的解決方案可用,看起來更多的工作。 impor

    0熱度

    1回答

    我想要遵循鏈接列表和每個鏈接的廢料數據與一個簡單的scrapy蜘蛛,但我有麻煩。 在scrapy shell中,當我重新創建腳本時,它發送新url的get請求,但是當我運行爬網時,我沒有從鏈接中獲取任何數據。我找回的唯一數據來自在鏈接前被抓到的起始網址。 如何從鏈接中抓取數據? import scrapy class QuotesSpider(scrapy.Spider):

    0熱度

    1回答

    我想訪問變量self.cursor以利用活動的postgreSQL連接,但我無法弄清楚如何訪問scrapy的管道類實例。 class ScrapenewsPipeline(object): def open_spider(self, spider): self.connection = psycopg2.connect( host= os.environ['HOS