2011-05-14 61 views
0

是否有任何可以抓取需要身份驗證(用戶名/密碼)登錄的網站的開源抓取工具?我需要它爬行我的大學網站索引網站上的文件..任何幫助表示讚賞。抓取具有身份驗證網站的抓取工具

+0

您可能想查看[this](http://www.ibm.com/developerworks/data/library/techarticle/dm-0707nishitani/)和[this](http://searchengineland.com/google) -AdSense快艇現場認證特徵 - 11718)。但是,你所要求的通常是反對爬蟲的本質。 – 2012-04-21 13:15:17

回答

0

沒有我所知道的,如果有的話,你的系統管理員可能不會允許它。

你可以看看例如基本履帶和自己做雖然...

0

您可以編寫一個基於PHP/libcurl中或Ruby /路邊的腳本。該網站的認證基於cookie,並且Curl庫提供了在您的程序中發送cookie的功能。

我不知道你喜歡哪種語言(PHP或Ruby)。如果您在使用Ruby,您可以編寫代碼爲波紋管

require 'curb' 
require 'uri' 
curl = Curl::Easy.new 
curl.url = 'http://example.com/login/page' 
curl.enable_cookies = true 
curl.cookiefile = '/tmp/cookie' 
curl.cookiejar = '/tmp/cookie' 
form_field = URI.encode_www_form('username'=>yourname, 'password'=>yourpwd) 
curl.http_post(form_field) 

文件「/ tmp目錄/ Cookie」是用來存儲和讀取類似瀏覽器cookie的。 Cookie使認證成爲可能。

'form_field'包含網站的用戶名和密碼,但其他一些字段應該根據網站需要。您應該破解網站的登錄表單,以瞭解必須將哪些字段發送到網站。