Scrapy parse_item回調沒有被調用

我有一個讓我的Scrapy蜘蛛運行它的回調方法的問題。Scrapy parse_item回調沒有被調用

我不認爲這是一個縮進錯誤，似乎是以前的其他職位的情況，但也許它是，我不知道它？有任何想法嗎？

from scrapy.contrib.spiders import CrawlSpider, Rule 
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor 
from scrapy.selector import HtmlXPathSelector 
from scrapy import log 
import tldextract 

class CrawlerSpider(CrawlSpider): 
    name = "crawler" 

    def __init__(self, initial_url): 
    log.msg('initing...', level=log.WARNING) 
    CrawlSpider.__init__(self) 

    if not initial_url.startswith('http'): 
     initial_url = 'http://' + initial_url 

    ext = tldextract.extract(initial_url) 
    initial_domain = ext.domain + '.' + ext.tld 
    initial_subdomain = ext.subdomain + '.' + ext.domain + '.' + ext.tld 
    self.allowed_domains = [initial_domain, 'www.' + initial_domain, initial_subdomain] 
    self.start_urls = [initial_url] 
    self.rules = [ 
     Rule(SgmlLinkExtractor(), callback='parse_item'), 
     Rule(SgmlLinkExtractor(allow_domains=self.allowed_domains), follow=True), 
    ] 
    self._compile_rules() 

    def parse_item(self, response): 
    log.msg('parse_item...', level=log.WARNING) 
    hxs = HtmlXPathSelector(response) 
    links = hxs.select("//a/@href").extract() 
    for link in links: 
     log.msg('link', level=log.WARNING)

樣品輸出低於;它應該顯示一個帶有「parse_item ...」的警告消息，但它不會。

$ scrapy crawl crawler -a initial_url=http://www.szuhanchang.com/test.html 
2013-02-19 18:03:24+0000 [scrapy] INFO: Scrapy 0.16.4 started (bot: crawler) 
2013-02-19 18:03:24+0000 [scrapy] DEBUG: Enabled extensions: LogStats, TelnetConsole, CloseSpider, WebService, CoreStats, SpiderState 
2013-02-19 18:03:24+0000 [scrapy] DEBUG: Enabled downloader middlewares: HttpAuthMiddleware, DownloadTimeoutMiddleware, UserAgentMiddleware, RetryMiddleware, DefaultHeadersMiddleware, RedirectMiddleware, CookiesMiddleware, HttpCompressionMiddleware, ChunkedTransferMiddleware, DownloaderStats 
2013-02-19 18:03:24+0000 [scrapy] DEBUG: Enabled spider middlewares: HttpErrorMiddleware, OffsiteMiddleware, RefererMiddleware, UrlLengthMiddleware, DepthMiddleware 
2013-02-19 18:03:24+0000 [scrapy] DEBUG: Enabled item pipelines: 
2013-02-19 18:03:24+0000 [scrapy] WARNING: initing... 
2013-02-19 18:03:24+0000 [crawler] INFO: Spider opened 
2013-02-19 18:03:24+0000 [crawler] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min) 
2013-02-19 18:03:24+0000 [scrapy] DEBUG: Telnet console listening on 0.0.0.0:6023 
2013-02-19 18:03:24+0000 [scrapy] DEBUG: Web service listening on 0.0.0.0:6080 
2013-02-19 18:03:25+0000 [crawler] DEBUG: Crawled (200) <GET http://www.szuhanchang.com/test.html> (referer: None) 
2013-02-19 18:03:25+0000 [crawler] DEBUG: Filtered offsite request to 'www.20130219-0606.com': <GET http://www.20130219-0606.com/> 
2013-02-19 18:03:25+0000 [crawler] INFO: Closing spider (finished) 
2013-02-19 18:03:25+0000 [crawler] INFO: Dumping Scrapy stats: 
     {'downloader/request_bytes': 234, 
     'downloader/request_count': 1, 
     'downloader/request_method_count/GET': 1, 
     'downloader/response_bytes': 363, 
     'downloader/response_count': 1, 
     'downloader/response_status_count/200': 1, 
     'finish_reason': 'finished', 
     'finish_time': datetime.datetime(2013, 2, 19, 18, 3, 25, 84855), 
     'log_count/DEBUG': 8, 
     'log_count/INFO': 4, 
     'log_count/WARNING': 1, 
     'request_depth_max': 1, 
     'response_received_count': 1, 
     'scheduler/dequeued': 1, 
     'scheduler/dequeued/memory': 1, 
     'scheduler/enqueued': 1, 
     'scheduler/enqueued/memory': 1, 
     'start_time': datetime.datetime(2013, 2, 19, 18, 3, 24, 805064)} 
2013-02-19 18:03:25+0000 [crawler] INFO: Spider closed (finished)

在此先感謝！

來源

2013-02-19 Han

你是如何運行這個蜘蛛？從'Scrapy爬行爬蟲'的命令行？ – 2013-02-19 17:18:54

通過一個sidekiq（排隊）工人，但我已經在命令行中嘗試過，也沒有運氣。我已經改變了這個問題，以包括命令行輸出以更清晰。 – Han 2013-02-19 18:02:36

請提供一個簡短的自包含示例（http://sscce.org/）。如果我將這段代碼粘貼到一個新的蜘蛛中，那麼它將無法工作，我必須安裝tldextract模塊，這使得測試有點棘手。 – Talvalin 2013-02-19 18:46:35

的http://www.szuhanchang.com/test.html的start_urls只有一個錨鏈接，即：

<a href="http://www.20130219-0606.com">Test</a>

其中包含一個鏈接到域20130219-0606.com，並根據您的allowed_domains的：

['szuhanchang.com', 'www.szuhanchang.com', 'www.szuhanchang.com']

這個請求被過濾OffsiteMiddleware：

2013-02-19 18:03:25+0000 [crawler] DEBUG: Filtered offsite request to 'www.20130219-0606.com': <GET http://www.20130219-0606.com/>

因此parse_item將不會被調用這個URL。

來源

2013-02-19 20:02:27

儘管我有兩條規則，一條規則包含允許的域，不應該跟隨異地URL，另一條規則是對每個找到的URL運行回調。 – Han 2013-02-19 21:34:36

第二條規則永遠不會被處理，因爲鏈接只會被滿足的第一個規則處理一次，並且所有鏈接都滿足第一條規則（缺省情況下錨定標籤中的href）。另一件事是，鏈接提取器將根據它的參數提取鏈接，在你的情況下，'allow_domains'參數（如果說這個規則是第一個），但這個鏈接列表不會覆蓋'OffsiteMiddleware'並且在這個情況下，它被過濾掉。 – 2013-02-19 21:49:05

將您的回調名稱更改爲parse_start_url似乎可行，但由於提供的測試網址很小，因此我無法確定這是否仍然有效。給它一個去，讓我知道。 :)

來源

2013-02-19 18:54:01 Talvalin

不幸的是，這沒有奏效;它會很奇怪，因爲'parse_item'不是任何Crawler父類中的一個已實現的方法，並且在線許多示例都使用該確切的回調方法名稱。 – Han 2013-02-19 21:35:57

它在我的工作，但後來我不得不硬編碼'initial_domain'和'initial_subdomain'去除'tldextract'引用，所以它不是上面的代碼相同。如果您可以在不使用該模塊的情況下發布非工作示例，那會更好。 – Talvalin 2013-02-19 22:02:03

Scrapy parse_item回調沒有被調用

回答

相關問題