在scrapy

2012-12-13 48 views 0 likes

使用BaseSpider時，如何提鏈接提取規則想這是我的代碼在scrapy

from scrapy.spider import BaseSpider 
from scrapy.selector import HtmlXPathSelector 

from dmoz.items import DmozItem 

class DmozSpider(BaseSpider): 
    domain_name = "dmoz.org" 
    start_urls = [ 
     "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/", 
     "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/" 
    ] 

    def parse(self, response): 
     hxs = HtmlXPathSelector(response) 
     sites = hxs.select('//ul[2]/li') 
     items = [] 
     for site in sites: 
      item = DmozItem() 
      item['title'] = site.select('a/text()').extract() 
      item['link'] = site.select('a/@href').extract() 
      item['desc'] = site.select('text()').extract() 
      items.append(item) 
     return items 

SPIDER = DmozSpider()

如果我用crawlSpider然後我可以使用規則來實現thelink提取，但我怎麼能提基地蜘蛛規則。就像上面的例子。因爲規則只適用於爬蟲而不是基地蜘蛛

來源

2012-12-13 user1858027

回答

也許你可以解析你的規則標準的響應，然後將成功的響應傳遞給第二個回調？下面的僞代碼：

def parse(self, response): 
    # check response for rule criteria 
    ... 
    if rule: 
     # create new request to pass to second callback 
     req = Request("http://www.example.com/follow", callback=self.parse2) 
     return req 

def parse2(self, response): 
    hxs = HtmlXPathSelector(response) 
    # do stuff with the successful response

來源

2012-12-13 02:25:28 Talvalin

我可以遞歸地調用解析函數。或者它會是第二個解析函數的bteer – user1858027

'parse'函數將被調用到所有的啓動URL。在您將每個新請求傳遞給'parse2'之前，您需要正確處理每個響應並查找與您的規則相匹配的鏈接。 – Talvalin

相關問題

11. Scrapy Shell和Scrapy Splash
12. Scrapy Python中的Scrapy
13. Scrapy與Scrapy蜘蛛
14. Scrapy上的Scrapy錯誤
15. 刮scrapy論壇與scrapy
16. 如何刮scrapy使用scrapy
17. 試圖刮Scrapy使用Scrapy
18. 存儲Scrapy數據thro Scrapy
19. Scrapy monster.com使用scrapy框架
20. Scrapy安裝在Ubuntu：pkg_resources.DistributionNotFound：ATTRS
21. 如何在Python Scrapy
22. scrapy在PDF文件
23. scrapy convert_image
24. 與scrapy
25. Scrapy HtmlXPathSelector
26. 與Scrapy
27. Scrapy start_urls
28. 與Scrapy
29. Scrapy Torproject
30. Scrapy兒童網頁，並在Scrapy中連接結果