Scrapy遞歸刮網頁，保存內容爲HTML文件

我使用scrapy提取網頁中的標籤上的信息，然後保存這些網頁爲HTML files.Eg http://www.austlii.edu.au/au/cases/cth/HCA/1945/這個網站有相關的司法辦案。希望某些網頁去各個環節，節約不僅關係到作爲一個HTML page.eg去這個http://www.austlii.edu.au/au/cases/cth/HCA/1945/1.html，然後保存有關情況信息的特定司法個案的內容。Scrapy遞歸刮網頁，保存內容爲HTML文件

有沒有辦法在scrapy遞歸地做到這一點，保存內容的HTML頁面

來源

2013-07-05 Ashmit

是的，你可以用Scrapy做到這一點，Link Extractors將幫助：

from scrapy.contrib.spiders import CrawlSpider, Rule 
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor 
from scrapy.selector import HtmlXPathSelector 


class AustliiSpider(CrawlSpider): 
    name = "austlii" 
    allowed_domains = ["austlii.edu.au"] 
    start_urls = ["http://www.austlii.edu.au/au/cases/cth/HCA/1945/"] 
    rules = (
     Rule(SgmlLinkExtractor(allow=r"au/cases/cth/HCA/1945/\d+.html"), follow=True, callback='parse_item'), 
    ) 

    def parse_item(self, response): 
     hxs = HtmlXPathSelector(response) 

     # do whatever with html content (response.body variable)

希望有所幫助。

來源

2013-07-05 07:53:21 alecxe

Thanks..will試試這個！ – Ashmit

Scrapy遞歸刮網頁，保存內容爲HTML文件

回答

相關問題