Scrapy如何在運行蜘蛛時寫入日誌？

在運行scrapy蜘蛛，我看到的日誌消息具有「DEBUG：」具有 1. DEBUG：爬（200）（GET http://www.example.com）（引用者：無） 2. DEBUG：刮從（200 http://www.example.com）Scrapy如何在運行蜘蛛時寫入日誌？

我想知道 1.那些「抓取」和「刮掉」的含義是什麼？ 2.從這些地方都ULRs從上面返回（即。而刮哪個變量/參數已經持有這些網址頁）

來源

2015-06-11 Prabhakar

讓我嘗試基於對Scrapy Website所示的Scrapy Sample Code解釋。我把它保存在一個文件scrapy_example.py。

from scrapy import Spider, Item, Field 

class Post(Item): 
    title = Field() 

class BlogSpider(Spider): 
    name, start_urls = 'blogspider', ['http://blog.scrapinghub.com'] 

    def parse(self, response): 
     return [Post(title=e.extract()) for e in response.css("h2 a::text")]

用命令scrapy runspider scrapy_example.py會產生以下輸出執行此：

(...) 
DEBUG: Crawled (200) <GET http://blog.scrapinghub.com> (referer: None) ['partial'] 
DEBUG: Scraped from <200 http://blog.scrapinghub.com> 
    {'title': u'Using git to manage vacations in a large distributed\xa0team'} 
DEBUG: Scraped from <200 http://blog.scrapinghub.com> 
    {'title': u'Gender Inequality Across Programming\xa0Languages'} 
(...)

Crawled表示：scrapy已下載的網頁。

Scraped意味着：scrapy已經從該網頁提取了一些數據。

URL在腳本中給出爲start_urls參數。

您的輸出必須是通過運行蜘蛛生成的。搜索蜘蛛定義的文件，你應該能夠發現URL定義的地方。

來源

2015-06-11 15:46:49

Scrapy如何在運行蜘蛛時寫入日誌？

回答

相關問題