scrapy

0熱度

1回答

我在抓這個網站：https://www.olx.com.ar/celulares-telefonos-cat-831與Scrapy 1.4.0。當我運行蜘蛛時，一切都很順利，直到進入「下一頁」部分。下面的代碼： # -*- coding: utf-8 -*- import scrapy #import time class OlxarSpider(scrapy.Spider): name

1熱度

1回答

從js點擊事件的Scrapy飛濺下載文件

我正在使用scrapy +飛濺插件，我有一個按鈕，通過ajax觸發下載事件，我需要獲取下載的文件，但不知道如何。我的LUA腳本是一樣的東西從我的蜘蛛這個 function main(splash) splash:init_cookies(splash.args.cookies) assert(splash:go{ splash.args.url,

0熱度

1回答

關於Scrapy重新定向行爲的混淆？

所以我試圖刮掉從新聞網站，具有無限的渦旋式佈局的文章所以下面會發生什麼： example.com有文章第一頁 example.com/page/2/有第二頁 example.com/page/3/有第三頁依此類推。當您向下滾動時，網址會發生變化。爲了說明這一點，我想湊第一x許多文章和做了以下內容： start_urls = ['http://example.com/'] for x in ra

2熱度

1回答

Scrapy部署到Scrapyd不安裝在setup.py中指出的要求

我有一個用Scrapy編寫的項目。這個蜘蛛在setup.py中有很多要求。這是一個簡單的示例。我跑 scrapyd-deploy ，並具有以下輸出 Packing version 1506254163 Deploying to project "quotesbot" in http://localhost:6800/addversion.json Server response (200)

1熱度

2回答

scrapy和鉻工具不會返回相同的值

我正在學習scrapy，現在正在使用它的外殼。作爲一個簡單的練習，我想從這個網站中提取可見的房間圖像： https://www.gumtree.com/flats-houses/london。 scrapy shell "https://www.gumtree.com/flats-houses/london" 我使用這是應該做的工作如下簡單的命令：發射了殼後 response.xpath("

0熱度

1回答

Scrapy錯誤：無法綁定：24：打開的文件太多

我的域的列表上運行Scrapy，很多頁面都收到此錯誤： Couldn't bind: 24: Too many open files. 我沒有得到這錯誤在我的Linux機器上，但我現在正在我的Mac上得到它。我不確定這是否與在Sierra上運行有關，或者我是否忽略了Scrapy配置。我檢查了ulimit，它返回unlimited，所以我不認爲認爲是這樣的。在情況下，它是我的蜘蛛做的，這裏要說的是

0熱度

2回答

如何在scrapy中跨多個網站獲取單個項目？

我有這種情況：我想從描述產品（頁面A）的特定產品詳細信息頁面抓取產品詳細信息，此頁面包含指向此產品的賣方（頁面B）的頁面的鏈接，在每個賣家是到另一個頁面（C）包含賣家詳細信息的鏈接，下面是一個例子模式：頁答： PRODUCT_NAME 鏈接到該產品的銷售商（頁B）網頁B：賣家列表，每一個都含有： SELLER_NAME selling_price 鏈接到賣方細節頁（頁C）頁C： sell

0熱度

1回答

分頁（第二級） - scrapy蟒蛇

我不得不做出一個刮刀，我不明白爲什麼它不工作... 該網站有一個這樣的分頁： <div class="pagination toolbarbloc"> <ul> <li class="active"><span>1</span></li> <li><a href="...">2</a></li> <li><a href="...">3</

0熱度

1回答

Scrapy - 每個項目抓取4級頁面，不能先深入

我想要抓取township directory of China。該網站分爲4個層次，分別爲省頁面，城市頁面，縣頁面和鄉鎮頁面。例如，在省份頁面上列出了所有省份。如果我們點擊一個省份的鏈接，那麼它會將我們帶到城市頁面，並顯示該省的城市列表。我希望我的每件物品都是鄉鎮。它包括town_name，town_id（gbcode）和相應的縣名，city_name，prov_name。所以當蜘蛛進入鄉

1熱度

1回答

Scrapyd暫停/繼續工作

看起來像沒有合法的方式來暫停/繼續爬行Scrapyd，就像Scrapy本身一樣（scrapy爬行蜘蛛-s JOBDIR = jobdir/spider-1）。我發現的唯一的解決辦法是在這裏： https://groups.google.com/forum/#!msg/scrapyusers/2VjEBEbOo7s/MSH4GJc2B0sJ ，但我一直搞不明白的想法。那麼可以暫停/繼續Scrap