scrapy

    0熱度

    1回答

    我試圖從網站下載的PDF時,H,I,接着scrapy網站所提供的指令,但我得到這個錯誤: File "/home/joseph/ENV/lib/python3.5/site-packages/scrapy/http/request/__init__.py", line 58, in _set_url raise ValueError('Missing scheme in request

    0熱度

    1回答

    我使用硒和PhantomJS從大學web page 出於測試目的,收集了教授的聯繫信息(不是惡意的目的),讓我們說kw.txt是文件只包含兩個姓氏的樣子 最大 李 import scrapy from selenium import webdriver from universities.items import UniversitiesItem class iupui(scrapy.S

    1熱度

    1回答

    我正在關注這個link中有關序列化程序的文檔,我不確定是否缺少有關十進制序列化程序的文檔?我定義一個項目,像這樣一個scrapy領域: prize = scrapy.Field(serializer=Decimal, output_processor=TakeFirst()) scrapinhub店當這種價值,特別是包含逗號的數字我得到幾個錯誤。 是否有任何標準的方法來串行化小數?

    0熱度

    1回答

    現在,我的mongodb有一張表,它是關鍵字和被關鍵字抓取的次數被存儲的,現在如何將關鍵字插入到redis列表中並由抓取的次數優先水平? thks!非常 這是我的代碼: def init_mongo_to_redis(mongo_db, redis_pool): r = redis.Redis(connection_pool = redis_pool) mongo_handle

    1熱度

    1回答

    我有以下代碼: #FirstSpider.py class FirstSpider(scrapy.Spider): name = 'first' start_urls = ['https://www.basesite.com'] next_urls = [] def parse(self, response): for url in res

    -1熱度

    1回答

    我知道這個問題被問了很多次,但它似乎永遠不會解決任何地方。我看了幾個主題,嘗試了所有建議,但都沒有成功。 問題是:爲什麼沒有存儲到我的本地數據庫? 我在刮一個網站,按照每個網站上的2個鏈接去刮更多的數據。 我已成功籤是: 如果我可以從我的spider.class 打印的項目,如果我的XPath是正確 如果我可以,如果我的管道我pipeline.class內打印 包括 如果查詢工作 mySpider

    0熱度

    1回答

    import scrapy from universities.items import UniversitiesItem def clean_full_name(full_name): sp = full_name.split(',') last_name = sp[0].strip() first_name = sp[1].replace('\r\n',

    0熱度

    1回答

    我必須執行爬蟲並將數據放入數據庫中。 我已經收集了我的數據,但我有問題將它們放入數據庫中。 我的文件有: topcrawlerspider.py(我的履帶,他是fonctional): from scrapy import Spider, Item, Field, Request from ..items import TopcrawlerItem from ..pipelines impor

    0熱度

    1回答

    我使用scrapy抓取整個網站,但我的解析器永遠不會被調用。我一直在看這個,只做了很小的改動,但它不起作用。也許它只需要一雙新的眼睛就可以了。這裏是我的代碼: import scrapy from scrapy.spiders import CrawlSpider, Rule from scrapy.linkextractors import LinkExtractor class Fir

    1熱度

    1回答

    我是scrapy和python的新手,我很難理解流程。我不知道在哪裏放置「爬到下一頁」功能。我不知道它是否應該來後,我回調parse_data或在parse_data函數它自我 腳本邏輯: 類別中的類別,刮類別中的所有頁面。 選項1: import scrapy class Amazon01Spider(scrapy.Spider): name = 'amazon0.1'