我可以和鵝一起使用scrapy嗎？

我通過Scrapy官方教程閱讀，我不清楚我是否可以使用一些外部庫來進行文章提取。我可以和鵝一起使用scrapy嗎？

2014-11-14 yayu

當然可以。 =）

下面是一個簡單的蜘蛛，讓你開始：

import scrapy 
from goose import Goose 

class Article(scrapy.Item): 
    title = scrapy.Field() 
    text = scrapy.Field() 

class MyGooseSpider(scrapy.Spider): 
    name = 'goose' 
    start_urls = [ 
     'http://blog.scrapinghub.com/2014/06/18/extracting-schema-org-microdata-using-scrapy-selectors-and-xpath/', 
     'http://blog.scrapinghub.com/2014/07/17/xpath-tips-from-the-web-scraping-trenches/', 
    ] 

    def parse(self, response): 
     article = Goose().extract(raw_html=response.body) 
     yield Article(title=article.title, text=article.cleaned_text)

在file.py將這個並運行：

scrapy runspider file.py -o output.json

來源

2014-11-14 23:34:23 elias

很漂亮，謝謝。 – yayu 2014-11-15 01:29:05

我可以和鵝一起使用scrapy嗎？

回答

相關問題