2013-02-19 69 views
2

我有一個讓我的Scrapy蜘蛛運行它的回調方法的問題。Scrapy parse_item回調沒有被調用

我不認爲這是一個縮進錯誤,似乎是以前的其他職位的情況,但也許它是,我不知道它?有任何想法嗎?

from scrapy.contrib.spiders import CrawlSpider, Rule 
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor 
from scrapy.selector import HtmlXPathSelector 
from scrapy import log 
import tldextract 

class CrawlerSpider(CrawlSpider): 
    name = "crawler" 

    def __init__(self, initial_url): 
    log.msg('initing...', level=log.WARNING) 
    CrawlSpider.__init__(self) 

    if not initial_url.startswith('http'): 
     initial_url = 'http://' + initial_url 

    ext = tldextract.extract(initial_url) 
    initial_domain = ext.domain + '.' + ext.tld 
    initial_subdomain = ext.subdomain + '.' + ext.domain + '.' + ext.tld 
    self.allowed_domains = [initial_domain, 'www.' + initial_domain, initial_subdomain] 
    self.start_urls = [initial_url] 
    self.rules = [ 
     Rule(SgmlLinkExtractor(), callback='parse_item'), 
     Rule(SgmlLinkExtractor(allow_domains=self.allowed_domains), follow=True), 
    ] 
    self._compile_rules() 

    def parse_item(self, response): 
    log.msg('parse_item...', level=log.WARNING) 
    hxs = HtmlXPathSelector(response) 
    links = hxs.select("//a/@href").extract() 
    for link in links: 
     log.msg('link', level=log.WARNING) 

樣品輸出低於;它應該顯示一個帶有「parse_item ...」的警告消息,但它不會。

$ scrapy crawl crawler -a initial_url=http://www.szuhanchang.com/test.html 
2013-02-19 18:03:24+0000 [scrapy] INFO: Scrapy 0.16.4 started (bot: crawler) 
2013-02-19 18:03:24+0000 [scrapy] DEBUG: Enabled extensions: LogStats, TelnetConsole, CloseSpider, WebService, CoreStats, SpiderState 
2013-02-19 18:03:24+0000 [scrapy] DEBUG: Enabled downloader middlewares: HttpAuthMiddleware, DownloadTimeoutMiddleware, UserAgentMiddleware, RetryMiddleware, DefaultHeadersMiddleware, RedirectMiddleware, CookiesMiddleware, HttpCompressionMiddleware, ChunkedTransferMiddleware, DownloaderStats 
2013-02-19 18:03:24+0000 [scrapy] DEBUG: Enabled spider middlewares: HttpErrorMiddleware, OffsiteMiddleware, RefererMiddleware, UrlLengthMiddleware, DepthMiddleware 
2013-02-19 18:03:24+0000 [scrapy] DEBUG: Enabled item pipelines: 
2013-02-19 18:03:24+0000 [scrapy] WARNING: initing... 
2013-02-19 18:03:24+0000 [crawler] INFO: Spider opened 
2013-02-19 18:03:24+0000 [crawler] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min) 
2013-02-19 18:03:24+0000 [scrapy] DEBUG: Telnet console listening on 0.0.0.0:6023 
2013-02-19 18:03:24+0000 [scrapy] DEBUG: Web service listening on 0.0.0.0:6080 
2013-02-19 18:03:25+0000 [crawler] DEBUG: Crawled (200) <GET http://www.szuhanchang.com/test.html> (referer: None) 
2013-02-19 18:03:25+0000 [crawler] DEBUG: Filtered offsite request to 'www.20130219-0606.com': <GET http://www.20130219-0606.com/> 
2013-02-19 18:03:25+0000 [crawler] INFO: Closing spider (finished) 
2013-02-19 18:03:25+0000 [crawler] INFO: Dumping Scrapy stats: 
     {'downloader/request_bytes': 234, 
     'downloader/request_count': 1, 
     'downloader/request_method_count/GET': 1, 
     'downloader/response_bytes': 363, 
     'downloader/response_count': 1, 
     'downloader/response_status_count/200': 1, 
     'finish_reason': 'finished', 
     'finish_time': datetime.datetime(2013, 2, 19, 18, 3, 25, 84855), 
     'log_count/DEBUG': 8, 
     'log_count/INFO': 4, 
     'log_count/WARNING': 1, 
     'request_depth_max': 1, 
     'response_received_count': 1, 
     'scheduler/dequeued': 1, 
     'scheduler/dequeued/memory': 1, 
     'scheduler/enqueued': 1, 
     'scheduler/enqueued/memory': 1, 
     'start_time': datetime.datetime(2013, 2, 19, 18, 3, 24, 805064)} 
2013-02-19 18:03:25+0000 [crawler] INFO: Spider closed (finished) 

在此先感謝!

+0

你是如何運行這個蜘蛛?從'Scrapy爬行爬蟲'的命令行? – 2013-02-19 17:18:54

+0

通過一個sidekiq(排隊)工人,但我已經在命令行中嘗試過,也沒有運氣。我已經改變了這個問題,以包括命令行輸出以更清晰。 – Han 2013-02-19 18:02:36

+0

請提供一個簡短的自包含示例(http://sscce.org/)。如果我將這段代碼粘貼到一個新的蜘蛛中,那麼它將無法工作,我必須安裝tldextract模塊,這使得測試有點棘手。 – Talvalin 2013-02-19 18:46:35

回答

4

http://www.szuhanchang.com/test.htmlstart_urls只有一個錨鏈接,即:

<a href="http://www.20130219-0606.com">Test</a> 

其中包含一個鏈接到域20130219-0606.com,並根據您的allowed_domains的:

['szuhanchang.com', 'www.szuhanchang.com', 'www.szuhanchang.com'] 

這個請求被過濾OffsiteMiddleware

2013-02-19 18:03:25+0000 [crawler] DEBUG: Filtered offsite request to 'www.20130219-0606.com': <GET http://www.20130219-0606.com/> 

因此parse_item將不會被調用這個URL。

+0

儘管我有兩條規則,一條規則包含允許的域,不應該跟隨異地URL,另一條規則是對每個找到的URL運行回調。 – Han 2013-02-19 21:34:36

+0

第二條規則永遠不會被處理,因爲鏈接只會被滿足的第一個規則處理一次,並且所有鏈接都滿足第一條規則(缺省情況下錨定標籤中的href)。另一件事是,鏈接提取器將根據它的參數提取鏈接,在你的情況下,'allow_domains'參數(如果說這個規則是第一個),但這個鏈接列表不會覆蓋'OffsiteMiddleware'並且在這個情況下,它被過濾掉。 – 2013-02-19 21:49:05

1

將您的回調名稱更改爲parse_start_url似乎可行,但由於提供的測試網址很小,因此我無法確定這是否仍然有效。給它一個去,讓我知道。 :)

+0

不幸的是,這沒有奏效;它會很奇怪,因爲'parse_item'不是任何Crawler父類中的一個已實現的方法,並且在線許多示例都使用該確切的回調方法名稱。 – Han 2013-02-19 21:35:57

+0

它在我的工作,但後來我不得不硬編碼'initial_domain'和'initial_subdomain'去除'tldextract'引用,所以它不是上面的代碼相同。如果您可以在不使用該模塊的情況下發布非工作示例,那會更好。 – Talvalin 2013-02-19 22:02:03

相關問題