scrapy

0熱度

2回答

由於某些原因，當我使用Scrapy從元素中獲取文本值時，它顯示正確，但是當我將它放入數組中時，它會被不正確地編碼。這裏是測試：我用了Château這個詞。在一個案例測試，scrapy獲取單詞然後打印並將其添加到數組。在第二種情況下test2，我從字面上將從另一個測試打印的單詞粘貼到數組中。這裏是我的Scrapy python腳本： value=node.xpath('//AddrDisplay

1熱度

1回答

Scrapy - 設置TCP連接超時

我想通過Scrapy刮一個網站。但是，該網站有時非常緩慢，並且在瀏覽器中首次請求時需要花費將近15-20秒的時間。無論如何，有時候，當我嘗試使用Scrapy抓取網站時，我不斷收到TCP超時錯誤。即使網站在我的瀏覽器上打開狀況良好。這裏的消息： 2017-09-05 17:34:41 [scrapy.downloadermiddlewares.retry] DEBUG: Gave up retryi

-1熱度

1回答

如何刮動JavaScript動態網站

我一直在試圖抓取下面的網站，但有一些問題。我找不到他們如何建立他們展示的empresas（英語：公司）列表。當我選擇一些類別並提交表單時，url並沒有改變，我試着去查看請求但沒有成功。（不是webdeveloper在這裏）。 http://www.vitrinedoexportador.gov.br 我第一次嘗試去瀏覽網頁中的所有鏈接。我試過的第一種方法是強制所有的URL。他們有這個語法。

1熱度

1回答

scrapy + splash：沒有呈現整頁JavaScript數據

我只是在探索scrapy與飛濺，我試圖從電子商務網站 gap其中一個產品，名稱和價格刮所有產品（褲子）數據，但但我沒有看到所有的動態產品數據加載，當我從飛濺的web用戶界面看到splash web UI（只有16個項目正在裝載雖然爲每一個請求 - 不知道爲什麼）我有以下選項嘗試，但沒有運氣增加等待時間高達20秒通過啓動docker「--disable-pr ivate模式「通過使用lua_

-1熱度

1回答

Scrapy與Scrapy蜘蛛

我想刮website。我想要做的提取是文檔列表，作者姓名和日期。我觀看了一些scrapy蜘蛛視頻，並能夠找出3個shell腳本命令，從網站上提供所需的數據。該命令是 scrapy shell https://www.cato.org/research/34/commentary 日期： response.css('span.date-display-single::text').extract

0熱度

1回答

Scrapy - 運行蜘蛛多次

我已經設置了履帶以這種方式： from twisted.internet import reactor from scrapy.crawler import CrawlerProcess from scrapy.utils.project import get_project_settings def crawler(mood): process = CrawlerProces

0熱度

1回答

xpath在Chrome控制檯中工作時，Scrapy shell無法抓取信息

我正在研究收集大學教授聯繫信息的項目。（所以它不是惡意的。）教授頁面是動態的。我通過Chrome網絡找到了這個請求。但是，scrapy xpath在scrapy shell中不起作用，而它在瀏覽器上工作。我甚至試圖添加標題。 scrapy shell result Chrome console result import scrapy from universities.items impo

0熱度

1回答

scrapy從javascript提取源代碼url

我正在嘗試從javascript提取數據。 JS貌似 - <script type="text/javaScript"> var playerInstance = jwplayer("player"); playerInstance.setup({ image: "http://cdn1.gomoviesgo.com/movies/1230451279-cover-Wonder-Wo

0熱度

1回答

scrapy保存不同的產量DIC在同一個JSON對象

我有scrapy代碼如下所示： def parse(self, response): for quote in response.css('div.search-item '): f = quote.css('a.stack::attr(href)').extract_first() f = response.urljoin(f) # print(f)

0熱度

1回答

（Python 3）蜘蛛必須返回請求，BaseItem，字典或無，得到'發電機'

我正在從Scrapy腳本中拉取Paul Krugman的NYT博客中最新的博客文章。該項目是很好的出發沿，但是當我得到的地方，其實我試圖提取我不斷收到同一個問題的數據階段： ERROR: Spider must return Request, BaseItem, dict or None, got 'generator' in <GET https://krugman.blogs.nytimes.