Selenium RC Perl腳本如何獲取xml頁面的源代碼？

我用WWW :: Selenium模塊編寫了一個簡單的perl腳本，該模塊與Selenium RC服務器交互並進入網頁並下載源代碼。我可以用HTML頁面做到這一點。但是，我有一個XML頁面，我想下載它的源代碼。 'get_source_html（）'函數顯然不可行。下面是我想做的腳本：Selenium RC Perl腳本如何獲取xml頁面的源代碼？

#!/usr/bin/perl -sw 
use WWW::Selenium; 

print "\n setting up Selenium...\n"; 
my $sel = WWW::Selenium->new(host => "localhost", 
port => 4444, 
browser => "*firefox", 
browser_url => "http://www.google.com", 
); 

print " starting Selenium...\n"; 
$sel->start; 

$sel->open('someXMLpage...'); 
$sel->wait_for_page_to_load(); 

my $xml = $sel->get_html_source(); 
print $xml;

正如你可以看到get_html_source顯然是一個問題，因爲它會返回一個錯誤，指出該頁面是不是HTML。有什麼方法可以下載瀏覽器中顯示的當前頁面，而不管頁面的類型如何（比如點擊'view source'在firefox中，甚至更好：一些get_source（）函數）？另外請注意，我需要使用的網址並不以'.xml'文件結尾。該頁面是即時生成的，如果這意味着什麼...

任何智慧大大感謝！

來源

2012-09-07 CODEBLACK

你想要的硒RC get_page_source()功能。即使「頁面」不是HTML（甚至是純文本，而不僅僅是XML），它也可以工作。

來源

2012-09-11 23:53:11

是的，get_page_source（）解決了我的問題！ :) – CODEBLACK

-1

嘗試：

$sel->get_body_text();

來源

2012-09-07 10:15:55

thx for the response！不幸的是，這（固執地）不想爲我工作。我發現Selenium :: Remote :: Driver模塊的解決方法。它的get_page_source（）函數能夠爲我做到這一點。 – CODEBLACK

這不起作用，因爲XML文件沒有標記。 –

Selenium :: Remote :: Driver Perl模塊提供了一個get_page_source函數。

另一方面，WWW :: Selenium沒有提供這樣的方法。它只提供了一個get_html_source函數，它在開始和結束「html」標記之間返回整個HTML源代碼。

但是，通過WWW :: Selenium獲取XML文檔內容的解決方法是使用其get_eval函數來評估將執行該作業的JavaScript片段。例如，以下行返回瀏覽器窗口中所包含文檔的根節點/元素的XML內容：

my $xml = $sel->get_eval("new XMLSerializer().serializeToString(window.document.documentElement)");

來源

2013-12-16 09:11:50 kntonas

Selenium RC Perl腳本如何獲取xml頁面的源代碼？

回答

相關問題