我試圖用php或perl編寫的腳本閱讀網站的特定div元素。閱讀受密碼保護的頁面
不幸的是,頁面請求登錄才能閱讀這些特定的站點。正如我所見,它是ssl保護的。我不是在尋找一個完整的解決方案,我只需要一個提示,告訴腳本登錄所需的信息(用戶名+密碼),然後再閱讀部分源代碼。
我不太清楚如果用PERL或PHP來做這個更好,所以我已經用這兩種語言標記了這個問題。
我試圖用php或perl編寫的腳本閱讀網站的特定div元素。閱讀受密碼保護的頁面
不幸的是,頁面請求登錄才能閱讀這些特定的站點。正如我所見,它是ssl保護的。我不是在尋找一個完整的解決方案,我只需要一個提示,告訴腳本登錄所需的信息(用戶名+密碼),然後再閱讀部分源代碼。
我不太清楚如果用PERL或PHP來做這個更好,所以我已經用這兩種語言標記了這個問題。
Mojo::UserAgent(請參閱cookbook)有一個內置cookie jar,如果您安裝了IO::Socket::SSL,可以執行SSL。它有一個DOM parser,它可以很容易地使用CSS3選擇器遍歷返回的結果。如果這還不夠好,整個事情可以使用非阻塞(如果這是你需要的東西)。
Mojo :: UserAgent和上面列出的其他工具是Mojolicious套件工具的一部分。這是一個Perl庫,我肯定會推薦Perl來完成這項任務,因爲它是比PHP更通用的語言。
這是一個非常簡單的例子,從一切在一個div裏面有一個MyClass類
use Mojo::UserAgent;
my $ua = Mojo::UserAgent->new;
$ua->post('http://mysite.com/login' => form => { ... });
my @link_text =
$ua->get('http://mysite.com/protected/page')
->res
->dom('div.myclass a')
->text
->each;
實際上鍊接的文本,運行這個shell命令可能足以讓你開始(視在權限)
curl -L cpanmin.us | perl - -n Mojolicious IO::Socket::SSL
@downvoter,關心評論? – 2013-03-12 19:06:24
PHP(或任何真的)與** **捲曲 - 使用一個[cookie罐(http://curl.haxx.se/libcurl/php/examples/cookiejar.html) – ficuscr 2013-03-12 18:03:21