2013-07-17 103 views
2

我想提取一個TWiki(誰是我的URL)的HTML代碼。什麼是最好的方式呢?使用Perl從url中提取HTML

此外,一旦我提取HTML代碼,我需要在託管在Google協作平臺上的網站中提取它。那可能嗎?

+0

謝謝。 LWP :: Simple工作正常。但是有沒有人會對我的第二個問題的答案有任何線索。我似乎無法訪問我的網站。 – user2590739

回答

1

聽起來像你需要CPAN HTML::Parser模塊。

use HTML::Parser(); 

# Create parser object 
$p = HTML::Parser->new(api_version => 3, 
         start_h => [\&start, "tagname, attr"], 
         end_h => [\&end, "tagname"], 
         marked_sections => 1, 
         ); 
# Parse directly from file 
$p->parse_file("foo.html"); 
+0

我不推薦使用HTML :: Parser,該模塊需要一些煩人的代碼來實現簡單的事情。更好和聲明:[Web :: Query](http://p3rl.org/Web::Query)(CSS選擇器),[HTML :: TreeBuilder :: XPath](http://p3rl.org/HTML :: TreeBuilder :: XPath)(XPath) – daxim

2

一個非常簡單的方式來獲得一個HTML頁面是LWP::Simple模塊。如果您必須執行更復雜的導航流程,請使用WWW::Mechanize。然後,如果您需要解析HTML代碼,那麼@ brian解決方案就很好。