2013-07-05 75 views
2

我使用scrapy提取網頁中的標籤上的信息,然後保存這些網頁爲HTML files.Eg http://www.austlii.edu.au/au/cases/cth/HCA/1945/這個網站有相關的司法辦案。希望某些網頁去各個環節,節約不僅關係到作爲一個HTML page.eg去這個http://www.austlii.edu.au/au/cases/cth/HCA/1945/1.html,然後保存有關情況信息的特定司法個案的內容。Scrapy遞歸刮網頁,保存內容爲HTML文件

有沒有辦法在scrapy遞歸地做到這一點,保存內容的HTML頁面

回答

0

是的,你可以用Scrapy做到這一點,Link Extractors將幫助:

from scrapy.contrib.spiders import CrawlSpider, Rule 
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor 
from scrapy.selector import HtmlXPathSelector 


class AustliiSpider(CrawlSpider): 
    name = "austlii" 
    allowed_domains = ["austlii.edu.au"] 
    start_urls = ["http://www.austlii.edu.au/au/cases/cth/HCA/1945/"] 
    rules = (
     Rule(SgmlLinkExtractor(allow=r"au/cases/cth/HCA/1945/\d+.html"), follow=True, callback='parse_item'), 
    ) 

    def parse_item(self, response): 
     hxs = HtmlXPathSelector(response) 

     # do whatever with html content (response.body variable) 

希望有所幫助。

+0

Thanks..will試試這個! – Ashmit