抓取基於登錄的網站的最佳方式是什麼？

class LoginSpider(BaseSpider): 
    domain_name = 'example.com' 
    start_urls = ['http://www.example.com/users/login.php'] 

    def parse(self, response): 
     return [FormRequest.from_response(response, 
       formdata={'username': 'john', 'password': 'secret'}, 
       callback=self.after_login)] 

    def after_login(self, response): 
     # check login succeed before going on 
     if "authentication failed" in response.body: 
      self.log("Login failed", level=log.ERROR) 
      return 

     # continue scraping with authenticated session...

來源

2009-11-20 04:49:53

什麼發生的url是發射JavaScript像document.writeln填充瀏覽器文件？ Scrapy是否適用於這種情況？ – asyncwait 2009-11-20 13:19:05

有兩種情況我可以想到 – 2009-11-20 14:17:58

1.頁面加載時所有的數據都在頁面中，但是它使用js而不是html（這是不太可能的）。但是，如果是這樣的話，那麼我相信你可以解析它，scrapy有一些功能，可以在這裏模糊地指出：http://doc.scrapy.org/intro/overview.html?highlight=javascript#what-else – 2009-11-20 14:39:59

我使用mechanize爲Python成功的幾件事情。它很容易使用和支持HTTP身份驗證，表單處理，cookie，自動HTTP重定向（30X），......基本上唯一缺少的是JavaScript，但是如果您需要依賴JS，那麼您總是非常麻煩。

來源

2009-11-20 11:27:50 paprika

抓取基於登錄的網站的最佳方式是什麼？

回答

相關問題