我正在寫一個履帶。抓取工具登錄到網站後,我想讓抓取工具「始終保持登錄狀態」。我怎樣才能做到這一點?客戶端(如瀏覽器,爬蟲等)是否使服務器遵守此規則?當服務器在一天內允許有限的登錄時,可能會發生這種情況。寫入爬蟲,保持與任何服務器登錄
0
A
回答
5
「登錄狀態」通常由Cookie表示。因此,您必須做的是在登錄時存儲該服務器發送的cookie信息,然後將該cookie隨每個後續請求一起發送(如Aiden Bell在其消息中所述,thx)。
也看到這個問題:
How to "keep-alive" with cookielib and httplib in python?
一個更全面的文章就如何實現它:
http://www.voidspace.org.uk/python/articles/cookielib.shtml
最簡單的例子是,在本手冊頁的底部:
https://docs.python.org/library/cookielib.html
您也可以使用常規瀏覽器(如Firefox)手動登錄。然後,您就可以從該瀏覽器中保存cookie,並將其用於抓取工具中。但是這些cookies通常只在有限的時間內有效,所以它不是一個長期的全自動化解決方案。但是,從網站下載內容可能非常方便。
UPDATE:
我只是發現在最近的問題的另一個有趣的工具:
它也可以做這樣的基於cookie登錄:
http://doc.scrapy.org/topics/request-response.html#topics-request-response-ref-request-userlogin
我提到的問題在這裏:
希望這會有所幫助。
相關問題
- 1. 自動登錄谷歌網頁爬蟲
- 2. 爬蟲登錄到Gmail郵箱賬戶
- 3. scrapy避免爬蟲登出
- 4. scrapy遞歸鏈接爬蟲與登錄 - 幫助我提高
- 5. 如何隱藏爬蟲和黑客服務器上的內容
- 6. 尋求輸入:保持服務器會話沒有任何服務器狀態
- 7. Phpstorm任務服務器無法登錄到Youtrack服務器
- 8. 如何重寫以下rx-java爬蟲
- 9. 如何在ruby中編寫爬蟲?
- 10. 如何使用網絡爬蟲/刮板登錄?
- 11. 登錄信息保持服務器重啓
- 12. 硒與python網絡爬蟲
- 13. 從服務器到服務器的持久登錄信息
- 14. Java登錄服務器淹沒保護
- 15. 爬蟲將在此服務器配置上工作嗎?
- 16. 在Linux服務器中運行帶硒的Scrapy Web爬蟲
- 17. 如何使Facebook登錄保持與Codigniter?
- 18. c#無頭瀏覽器,支持爬蟲的javascript支持
- 19. 登錄到服務器時未登錄到服務器
- 20. Python爬蟲 - html.fromstring
- 21. 網絡爬蟲
- 22. Python的爬蟲?
- 23. 爬蟲實例
- 24. ilibjingle與Openfire服務器 - 無法登錄
- 25. 與登錄網絡服務器問題
- 26. Web服務器可以寫入登錄用戶的屏幕嗎?
- 27. 以編程方式登錄Python網絡爬蟲
- 28. 保持數據與服務器
- 29. 編寫網絡爬蟲模板
- 30. 用飛鏢寫的網頁爬蟲
+1:然後再次發送cookie。 – 2009-11-26 15:25:59
另外,他可能必須在會話中添加零星的活動來阻止它過期。 – 2009-11-26 15:26:58
即使您添加零星活動,會話也會因會話生存期中的服務器端「限制」而失效。因此,長期的解決方案是允許爬蟲根據需要登錄。但是,只要服務器允許會話(實質上)無限制的生存期,使用手動登錄並保持活動狀態的cookie從瀏覽器保存就更簡單了。 – fviktor 2009-11-26 16:40:10