scrapy

    0熱度

    2回答

    由於某些原因,當我使用Scrapy從元素中獲取文本值時,它顯示正確,但是當我將它放入數組中時,它會被不正確地編碼。 這裏是測試:我用了Château這個詞。在一個案例測試,scrapy獲取單詞然後打印並將其添加到數組。在第二種情況下test2,我從字面上將從另一個測試打印的單詞粘貼到數組中。 這裏是我的Scrapy python腳本: value=node.xpath('//AddrDisplay

    1熱度

    1回答

    我想通過Scrapy刮一個網站。但是,該網站有時非常緩慢,並且在瀏覽器中首次請求時需要花費將近15-20秒的時間。無論如何,有時候,當我嘗試使用Scrapy抓取網站時,我不斷收到TCP超時錯誤。即使網站在我的瀏覽器上打開狀況良好。這裏的消息: 2017-09-05 17:34:41 [scrapy.downloadermiddlewares.retry] DEBUG: Gave up retryi

    -1熱度

    1回答

    我一直在試圖抓取下面的網站,但有一些問題。我找不到他們如何建立他們展示的empresas(英語:公司)列表。 當我選擇一些類別並提交表單時,url並沒有改變,我試着去查看請求但沒有成功。(不是webdeveloper在這裏)。 http://www.vitrinedoexportador.gov.br 我第一次嘗試去瀏覽網頁中的所有鏈接。我試過的第一種方法是強制所有的URL。他們有這個語法。

    1熱度

    1回答

    我只是在探索scrapy與飛濺,我試圖從電子商務網站 gap其中一個產品,名稱和價格刮所有產品(褲子)數據,但但我沒有看到所有的動態產品數據加載,當我從飛濺的web用戶界面看到splash web UI(只有16個項目正在裝載雖然爲每一個請求 - 不知道爲什麼) 我有以下選項嘗試,但沒有運氣 增加等待時間高達20秒 通過啓動docker「--disable-pr ivate模式「 通過使用lua_

    -1熱度

    1回答

    我想刮website。我想要做的提取是文檔列表,作者姓名和日期。我觀看了一些scrapy蜘蛛視頻,並能夠找出3個shell腳本命令,從網站上提供所需的數據。該命令是 scrapy shell https://www.cato.org/research/34/commentary 日期: response.css('span.date-display-single::text').extract

    0熱度

    1回答

    我已經設置了履帶以這種方式: from twisted.internet import reactor from scrapy.crawler import CrawlerProcess from scrapy.utils.project import get_project_settings def crawler(mood): process = CrawlerProces

    0熱度

    1回答

    我正在研究收集大學教授聯繫信息的項目。 (所以它不是惡意的。) 教授頁面是動態的。我通過Chrome網絡找到了這個請求。但是,scrapy xpath在scrapy shell中不起作用,而它在瀏覽器上工作。我甚至試圖添加標題。 scrapy shell result Chrome console result import scrapy from universities.items impo

    0熱度

    1回答

    我正在嘗試從javascript提取數據。 JS貌似 - <script type="text/javaScript"> var playerInstance = jwplayer("player"); playerInstance.setup({ image: "http://cdn1.gomoviesgo.com/movies/1230451279-cover-Wonder-Wo

    0熱度

    1回答

    我有scrapy代碼如下所示: def parse(self, response): for quote in response.css('div.search-item '): f = quote.css('a.stack::attr(href)').extract_first() f = response.urljoin(f) # print(f)

    0熱度

    1回答

    我正在從Scrapy腳本中拉取Paul Krugman的NYT博客中最新的博客文章。該項目是很好的出發沿,但是當我得到的地方,其實我試圖提取我不斷收到同一個問題的數據階段: ERROR: Spider must return Request, BaseItem, dict or None, got 'generator' in <GET https://krugman.blogs.nytimes.