scrapy

    0熱度

    1回答

    我在抓這個網站:https://www.olx.com.ar/celulares-telefonos-cat-831與Scrapy 1.4.0。當我運行蜘蛛時,一切都很順利,直到進入「下一頁」部分。下面的代碼: # -*- coding: utf-8 -*- import scrapy #import time class OlxarSpider(scrapy.Spider): name

    1熱度

    1回答

    我正在使用scrapy +飛濺插件,我有一個按鈕,通過ajax觸發下載事件,我需要獲取下載的文件,但不知道如何。 我的LUA腳本是一樣的東西從我的蜘蛛這個 function main(splash) splash:init_cookies(splash.args.cookies) assert(splash:go{ splash.args.url,

    0熱度

    1回答

    所以我試圖刮掉從新聞網站,具有無限的渦旋式佈局的文章所以下面會發生什麼: example.com有文章第一頁 example.com/page/2/有第二頁 example.com/page/3/有第三頁 依此類推。當您向下滾動時,網址會發生變化。爲了說明這一點,我想湊第一x許多文章和做了以下內容: start_urls = ['http://example.com/'] for x in ra

    2熱度

    1回答

    我有一個用Scrapy編寫的項目。這個蜘蛛在setup.py中有很多要求。這是一個簡單的示例。我跑 scrapyd-deploy ,並具有以下輸出 Packing version 1506254163 Deploying to project "quotesbot" in http://localhost:6800/addversion.json Server response (200)

    1熱度

    2回答

    我正在學習scrapy,現在正在使用它的外殼。作爲一個簡單的練習,我想從這個網站中提取可見的房間圖像: https://www.gumtree.com/flats-houses/london。 scrapy shell "https://www.gumtree.com/flats-houses/london" 我使用這是應該做的工作如下簡單的命令: 發射了殼後 response.xpath("

    0熱度

    1回答

    我的域的列表上運行Scrapy,很多頁面都收到此錯誤: Couldn't bind: 24: Too many open files. 我沒有得到這錯誤在我的Linux機器上,但我現在正在我的Mac上得到它。我不確定這是否與在Sierra上運行有關,或者我是否忽略了Scrapy配置。我檢查了ulimit,它返回unlimited,所以我不認爲認爲是這樣的。 在情況下,它是我的蜘蛛做的,這裏要說的是

    0熱度

    2回答

    我有這種情況: 我想從描述產品(頁面A)的特定產品詳細信息頁面抓取產品詳細信息,此頁面包含指向此產品的賣方(頁面B)的頁面的鏈接,在每個賣家是到另一個頁面(C)包含賣家詳細信息的鏈接,下面是一個例子模式: 頁答: PRODUCT_NAME 鏈接到該產品的銷售商(頁B) 網頁B:賣家 列表,每一個都含有: SELLER_NAME selling_price 鏈接到賣方細節頁(頁C) 頁C: sell

    0熱度

    1回答

    我不得不做出一個刮刀,我不明白爲什麼它不工作... 該網站有一個這樣的分頁: <div class="pagination toolbarbloc"> <ul> <li class="active"><span>1</span></li> <li><a href="...">2</a></li> <li><a href="...">3</

    0熱度

    1回答

    我想要抓取township directory of China。該網站分爲4個層次,分別爲省頁面,城市頁面,縣頁面和鄉鎮頁面。例如,在省份頁面上列出了所有省份。如果我們點擊一​​個省份的鏈接,那麼它會將我們帶到城市頁面,並顯示該省的城市列表。 我希望我的每件物品都是鄉鎮。它包括town_name,town_id(gbcode)和相應的縣名,city_name,prov_name。所以當蜘蛛進入鄉

    1熱度

    1回答

    看起來像沒有合法的方式來暫停/繼續爬行Scrapyd,就像Scrapy本身一樣(scrapy爬行蜘蛛-s JOBDIR = jobdir/spider-1)。 我發現的唯一的解決辦法是在這裏: https://groups.google.com/forum/#!msg/scrapyusers/2VjEBEbOo7s/MSH4GJc2B0sJ ,但我一直搞不明白的想法。 那麼可以暫停/繼續Scrap