是否有任何可以抓取需要身份驗證(用戶名/密碼)登錄的網站的開源抓取工具?我需要它爬行我的大學網站索引網站上的文件..任何幫助表示讚賞。抓取具有身份驗證網站的抓取工具
0
A
回答
0
沒有我所知道的,如果有的話,你的系統管理員可能不會允許它。
你可以看看例如基本履帶和自己做雖然...
0
您可以編寫一個基於PHP/libcurl中或Ruby /路邊的腳本。該網站的認證基於cookie,並且Curl庫提供了在您的程序中發送cookie的功能。
我不知道你喜歡哪種語言(PHP或Ruby)。如果您在使用Ruby,您可以編寫代碼爲波紋管
require 'curb'
require 'uri'
curl = Curl::Easy.new
curl.url = 'http://example.com/login/page'
curl.enable_cookies = true
curl.cookiefile = '/tmp/cookie'
curl.cookiejar = '/tmp/cookie'
form_field = URI.encode_www_form('username'=>yourname, 'password'=>yourpwd)
curl.http_post(form_field)
文件「/ tmp目錄/ Cookie」是用來存儲和讀取類似瀏覽器cookie的。 Cookie使認證成爲可能。
'form_field'包含網站的用戶名和密碼,但其他一些字段應該根據網站需要。您應該破解網站的登錄表單,以瞭解必須將哪些字段發送到網站。
相關問題
- 1. Golang網絡抓取工具NTLM身份驗證
- 2. 抓取Google網站管理員工具
- 3. 抓取基於表單身份驗證的https網站
- 4. 需要身份驗證的抓取網站
- 5. Storm Crawler-抓取需要身份驗證的網站
- 6. 屏幕抓取,表單身份驗證
- 7. BeautifulSoup抓取工具
- 8. 爲搜索引擎抓取工具創建表單身份驗證Cookie
- 9. Scrapy網頁抓取工具無法抓取鏈接
- 10. Facebook抓取工具Bot崩潰站點
- 11. 靈活的網頁抓取工具
- 12. 如何從抓取工具獲取數據到我的網站?
- 13. PHP抓取工具沒有抓取所有元素
- 14. Python- Twitter抓取工具
- 15. 改進Scrapy抓取工具
- 16. Google-Plus抓取工具
- 17. Facebook fanpage抓取工具
- 18. 打印網頁抓取工具輸出
- 19. Sharepoint 2013網頁抓取工具
- 20. 讓網絡抓取工具離開您的網站
- 21. 通過Python中的網絡抓取工具登錄到網站
- 22. 安裝抓取,網站抓取庫
- 23. 在網站上進行身份驗證和屏幕抓取與objective-c
- 24. scrapy抓取網站
- 25. 製作抓取人臉的抓取工具
- 26. 年齡驗證表格和抓取工具
- 27. fail2ban檢測不良網站抓取工具
- 28. 如何抓取具有前端js框架的網站
- 29. 抓取工具抓取Chrome擴展程序ID
- 30. 網站抓取器每隔幾秒就抓取一次網站
您可能想查看[this](http://www.ibm.com/developerworks/data/library/techarticle/dm-0707nishitani/)和[this](http://searchengineland.com/google) -AdSense快艇現場認證特徵 - 11718)。但是,你所要求的通常是反對爬蟲的本質。 – 2012-04-21 13:15:17