scrapy

    -1熱度

    1回答

    我需要從https://eservices.dha.gov.ae/DHASearch/UIPages/ProfessionalSearch.aspx?PageLang=En中提取數據。我需要4欄 - 「姓名」,「性別」,「標題」,「醫院名稱」,「聯繫方式」。點擊名稱時將顯示「標題」信息。我面臨的另一個問題是從多個頁面提取信息。總共有10071條記錄。我需要所有這些記錄的信息。目前我在R中使用rve

    0熱度

    1回答

    我的蜘蛛運行正常,我設法用例如這種代碼行: logging.info( 「網址MyCrawler建名單!」) 和輸出信息到控制檯例如 [root] INFO:MyCrawler構建的URL列表! 當運行蜘蛛,我得到許多種以下消息的: 2017年8月25日十三時40分15秒[scrapy.extensions.logstats] INFO:爬26 頁(以2頁/分),刮0的項目(在0件/分鐘)的消息:

    4熱度

    2回答

    我有以下的代碼,部分工作, class ThreadSpider(CrawlSpider): name = 'thread' allowed_domains = ['bbs.example.com'] start_urls = ['http://bbs.example.com/diy'] rules = ( Rule(LinkExtractor(

    0熱度

    1回答

    ,我需要閱讀有一個索引號 <div class="abber" id="abber1"> <div class="Listing_All Listing_Level5_CONTAINER"> <div class="Listing_Level5_HEADER"> ..... </div> </div> <div class="Listi

    0熱度

    1回答

    我試圖使用Selenium和Scrapy(請參閱下面的代碼)來抓取英國着名零售商的網站。我得到一個[scrapy.core.scraper] ERROR: Spider error processing,不知道還有什麼要做的(一直呆了三個小時左右)。感謝你的支持。 import scrapy from selenium import webdriver from nl_scrape.items

    -1熱度

    1回答

    輸出過來了輸入輸出: 由於HTML代碼是這樣的: 我不能 標籤中的數據分開。任何人都可以告訴我怎麼做。 這裏是我的代碼: # -*- coding: utf-8 -*- import scrapy class MonsterComSpider(scrapy.Spider): name = 'monsterca' #allowed_domains = ['www.monster.ca']

    0熱度

    1回答

    我想用Scrapy刮一個JSON響應。我想知道是否可以在JSON中找到嵌套值「Metro」並在該hiearchy內拉動「距離」的通配符路徑。 在JSON中,有幾個poi對象,但我只對Metro地鐵有興趣,而且對Metro的距離感興趣。請看下面的例子,我想刮。 我嘗試使用以下代碼,但它不起作用,因爲通配符不起作用,並且引用不正確。我習慣於XPATH抓取,所以希望有一些簡單的方法來做到這一點? loa

    0熱度

    1回答

    我想找到立即.col.group某些格子的孩子。我怎樣才能做到這一點? divs = response.css(div.container) children = divs[0].css('>.col.group') # this doesn't work 怎麼可以這樣既css和xpath寫? 謝謝。

    -1熱度

    1回答

    我已經嘗試了3種不同的LinkExtractor變體,但它仍然忽略了所有3個變體中的「拒絕」規則和爬行子域....我想排除從爬行。 只用'允許'規則試過。只允許主域即example.edu.uk rules = [Rule(LinkExtractor(allow=(r'^example\.edu.uk(\/.*)?$',)))] // Not Working 與「拒絕」唯一的規則嘗試。要拒絕所

    -1熱度

    1回答

    請求http://www.sonyliv.com/api/v2/vod/search API時,我收到「無效的csrf標記」消息郵差。 { "code": "403", "name": "Bad Request", "message": "Invalid csrf token" } 當我看到Chrome審查元素>在頭部分網絡標籤,我發現 「X-XSRF-TOKE