2013-10-15 159 views
0

我想從需要認證的頁面下載網頁源代碼,在Linux機器上使用shell腳本或類似的東西(如Perl,Python等)。從需要認證的頁面下載網頁源代碼

我試着使用wget和curl,但是當我傳遞URL時,正在下載的源代碼就是要求我提供憑據的頁面。同一個頁面已經在Firefox或Chrome上打開,但我不知道如何重新使用此會話。

基本上我需要做的就是定期在這個頁面上運行一次刷新,並且在源代碼裏面grep一些信息。如果我找到了我要找的東西,我會觸發另一個腳本。

- 編輯 -

韓國社交協會@Alexufo。我設法使它工作,這樣一來:

1 - 下載一個Firefox的插件,讓我保存cookies在一個TXT文件。我用這個插件:https://addons.mozilla.org/en-US/firefox/addon/export-cookies/

2 - 登錄我想要的網站,並保存了cookie。

3 - 使用wget:

wget --load-cookies=cookie.txt 'http://my.url.com' -O output_file.txt 

4 - 現在的網頁源代碼裏output_file.txt,我可以分析我想要的方式。

回答

0

CURL應該在任何地方工作。

1)做自動化的第一反應。節省廚師。 2)當你嘗試第二個響應來獲取你的源頁面代碼時使用廚師。

更新:http://www.httrack.com/

: Wget的應該交autorization像嫋嫋 wget with authentication UPDATE2工作