使用Perl從url中提取HTML

我想提取一個TWiki（誰是我的URL）的HTML代碼。什麼是最好的方式呢？使用Perl從url中提取HTML

此外，一旦我提取HTML代碼，我需要在託管在Google協作平臺上的網站中提取它。那可能嗎？

2013-07-17 user2590739

謝謝。 LWP :: Simple工作正常。但是有沒有人會對我的第二個問題的答案有任何線索。我似乎無法訪問我的網站。 – user2590739

聽起來像你需要CPAN HTML::Parser模塊。

use HTML::Parser(); 

# Create parser object 
$p = HTML::Parser->new(api_version => 3, 
         start_h => [\&start, "tagname, attr"], 
         end_h => [\&end, "tagname"], 
         marked_sections => 1, 
         ); 
# Parse directly from file 
$p->parse_file("foo.html");

來源

2013-07-17 09:38:26

我不推薦使用HTML :: Parser，該模塊需要一些煩人的代碼來實現簡單的事情。更好和聲明：[Web :: Query]（http://p3rl.org/Web::Query）（CSS選擇器），[HTML :: TreeBuilder :: XPath]（http://p3rl.org/HTML :: TreeBuilder :: XPath）（XPath） – daxim

一個非常簡單的方式來獲得一個HTML頁面是LWP::Simple模塊。如果您必須執行更復雜的導航流程，請使用WWW::Mechanize。然後，如果您需要解析HTML代碼，那麼@ brian解決方案就很好。

來源

2013-07-17 09:40:42

使用Perl從url中提取HTML

回答

相關問題