scrapy

0熱度

1回答

我試圖從網站下載的PDF時，H，I，接着scrapy網站所提供的指令，但我得到這個錯誤： File "/home/joseph/ENV/lib/python3.5/site-packages/scrapy/http/request/__init__.py", line 58, in _set_url raise ValueError('Missing scheme in request

0熱度

1回答

從scrapy和瀏覽器控制檯不同的XPath結果

我使用硒和PhantomJS從大學web page 出於測試目的，收集了教授的聯繫信息（不是惡意的目的），讓我們說kw.txt是文件只包含兩個姓氏的樣子最大李 import scrapy from selenium import webdriver from universities.items import UniversitiesItem class iupui(scrapy.S

1熱度

1回答

在scrapinghub中對小數進行序列化

我正在關注這個link中有關序列化程序的文檔，我不確定是否缺少有關十進制序列化程序的文檔？我定義一個項目，像這樣一個scrapy領域： prize = scrapy.Field(serializer=Decimal, output_processor=TakeFirst()) scrapinhub店當這種價值，特別是包含逗號的數字我得到幾個錯誤。是否有任何標準的方法來串行化小數？

0熱度

1回答

如何將mongo數據插入到redis列表中

現在，我的mongodb有一張表，它是關鍵字和被關鍵字抓取的次數被存儲的，現在如何將關鍵字插入到redis列表中並由抓取的次數優先水平？ thks！非常這是我的代碼： def init_mongo_to_redis(mongo_db, redis_pool): r = redis.Redis(connection_pool = redis_pool) mongo_handle

1熱度

1回答

Scrapy收率請求到另一個

我有以下代碼： #FirstSpider.py class FirstSpider(scrapy.Spider): name = 'first' start_urls = ['https://www.basesite.com'] next_urls = [] def parse(self, response): for url in res

-1熱度

1回答

scrapy項目xampp mysql數據庫

我知道這個問題被問了很多次，但它似乎永遠不會解決任何地方。我看了幾個主題，嘗試了所有建議，但都沒有成功。問題是：爲什麼沒有存儲到我的本地數據庫？我在刮一個網站，按照每個網站上的2個鏈接去刮更多的數據。我已成功籤是：如果我可以從我的spider.class 打印的項目，如果我的XPath是正確如果我可以，如果我的管道我pipeline.class內打印包括如果查詢工作 mySpider

0熱度

1回答

scrapy結果只保存一個項目在循環中

import scrapy from universities.items import UniversitiesItem def clean_full_name(full_name): sp = full_name.split(',') last_name = sp[0].strip() first_name = sp[1].replace('\r\n',

0熱度

1回答

無法將scrapy連接到我的數據庫

我必須執行爬蟲並將數據放入數據庫中。我已經收集了我的數據，但我有問題將它們放入數據庫中。我的文件有： topcrawlerspider.py（我的履帶，他是fonctional）： from scrapy import Spider, Item, Field, Request from ..items import TopcrawlerItem from ..pipelines impor

0熱度

1回答

爲什麼我的scrapy解析器沒有被調用？

我使用scrapy抓取整個網站，但我的解析器永遠不會被調用。我一直在看這個，只做了很小的改動，但它不起作用。也許它只需要一雙新的眼睛就可以了。這裏是我的代碼： import scrapy from scrapy.spiders import CrawlSpider, Rule from scrapy.linkextractors import LinkExtractor class Fir

1熱度

1回答

scrapy抓取類別和頁面

我是scrapy和python的新手，我很難理解流程。我不知道在哪裏放置「爬到下一頁」功能。我不知道它是否應該來後，我回調parse_data或在parse_data函數它自我腳本邏輯：類別中的類別，刮類別中的所有頁面。選項1： import scrapy class Amazon01Spider(scrapy.Spider): name = 'amazon0.1'