scrapy

-1熱度

1回答

我需要從https://eservices.dha.gov.ae/DHASearch/UIPages/ProfessionalSearch.aspx?PageLang=En中提取數據。我需要4欄 - 「姓名」，「性別」，「標題」，「醫院名稱」，「聯繫方式」。點擊名稱時將顯示「標題」信息。我面臨的另一個問題是從多個頁面提取信息。總共有10071條記錄。我需要所有這些記錄的信息。目前我在R中使用rve

0熱度

1回答

爲什麼我在運行Scrapy時得到空的「Messages：」日誌輸出？

我的蜘蛛運行正常，我設法用例如這種代碼行： logging.info（「網址MyCrawler建名單！」）和輸出信息到控制檯例如 [root] INFO：MyCrawler構建的URL列表！當運行蜘蛛，我得到許多種以下消息的： 2017年8月25日十三時40分15秒[scrapy.extensions.logstats] INFO：爬26 頁（以2頁/分），刮0的項目（在0件/分鐘）的消息：

4熱度

2回答

Scrapy CrawlSpider + Splash：如何通過linkextractor關注鏈接？

我有以下的代碼，部分工作， class ThreadSpider(CrawlSpider): name = 'thread' allowed_domains = ['bbs.example.com'] start_urls = ['http://bbs.example.com/diy'] rules = ( Rule(LinkExtractor(

0熱度

1回答

如何閱讀DIV類名與數Scrapy的Python

，我需要閱讀有一個索引號 <div class="abber" id="abber1"> <div class="Listing_All Listing_Level5_CONTAINER"> <div class="Listing_Level5_HEADER"> ..... </div> </div> <div class="Listi

0熱度

1回答

Scrapy + Selenium問題

我試圖使用Selenium和Scrapy（請參閱下面的代碼）來抓取英國着名零售商的網站。我得到一個[scrapy.core.scraper] ERROR: Spider error processing，不知道還有什麼要做的（一直呆了三個小時左右）。感謝你的支持。 import scrapy from selenium import webdriver from nl_scrape.items

-1熱度

1回答

scrapy - 在新線

輸出過來了輸入輸出：由於HTML代碼是這樣的：我不能標籤中的數據分開。任何人都可以告訴我怎麼做。這裏是我的代碼： # -*- coding: utf-8 -*- import scrapy class MonsterComSpider(scrapy.Spider): name = 'monsterca' #allowed_domains = ['www.monster.ca']

0熱度

1回答

Scrapy json響應：通配符和刮參考

我想用Scrapy刮一個JSON響應。我想知道是否可以在JSON中找到嵌套值「Metro」並在該hiearchy內拉動「距離」的通配符路徑。在JSON中，有幾個poi對象，但我只對Metro地鐵有興趣，而且對Metro的距離感興趣。請看下面的例子，我想刮。我嘗試使用以下代碼，但它不起作用，因爲通配符不起作用，並且引用不正確。我習慣於XPATH抓取，所以希望有一些簡單的方法來做到這一點？ loa

0熱度

1回答

Scrapy選擇直接的孩子

我想找到立即.col.group某些格子的孩子。我怎樣才能做到這一點？ divs = response.css(div.container) children = divs[0].css('>.col.group') # this doesn't work 怎麼可以這樣既css和xpath寫？謝謝。

-1熱度

1回答

Scrapy：Linkextractor規則不起作用

我已經嘗試了3種不同的LinkExtractor變體，但它仍然忽略了所有3個變體中的「拒絕」規則和爬行子域....我想排除從爬行。只用'允許'規則試過。只允許主域即example.edu.uk rules = [Rule(LinkExtractor(allow=(r'^example\.edu.uk(\/.*)?$',)))] // Not Working 與「拒絕」唯一的規則嘗試。要拒絕所

-1熱度

1回答

在請求Chrome郵遞員的http://www.sonyliv.com/api/v2/vod/search API時收到「無效的csrf標記」消息

請求http://www.sonyliv.com/api/v2/vod/search API時，我收到「無效的csrf標記」消息郵差。 { "code": "403", "name": "Bad Request", "message": "Invalid csrf token" } 當我看到Chrome審查元素>在頭部分網絡標籤，我發現「X-XSRF-TOKE