我想從需要認證的頁面下載網頁源代碼,在Linux機器上使用shell腳本或類似的東西(如Perl,Python等)。從需要認證的頁面下載網頁源代碼
我試着使用wget和curl,但是當我傳遞URL時,正在下載的源代碼就是要求我提供憑據的頁面。同一個頁面已經在Firefox或Chrome上打開,但我不知道如何重新使用此會話。
基本上我需要做的就是定期在這個頁面上運行一次刷新,並且在源代碼裏面grep一些信息。如果我找到了我要找的東西,我會觸發另一個腳本。
- 編輯 -
韓國社交協會@Alexufo。我設法使它工作,這樣一來:
1 - 下載一個Firefox的插件,讓我保存cookies在一個TXT文件。我用這個插件:https://addons.mozilla.org/en-US/firefox/addon/export-cookies/
2 - 登錄我想要的網站,並保存了cookie。
3 - 使用wget:
wget --load-cookies=cookie.txt 'http://my.url.com' -O output_file.txt
4 - 現在的網頁源代碼裏output_file.txt,我可以分析我想要的方式。