我想提取一個TWiki(誰是我的URL)的HTML代碼。什麼是最好的方式呢?使用Perl從url中提取HTML
此外,一旦我提取HTML代碼,我需要在託管在Google協作平臺上的網站中提取它。那可能嗎?
我想提取一個TWiki(誰是我的URL)的HTML代碼。什麼是最好的方式呢?使用Perl從url中提取HTML
此外,一旦我提取HTML代碼,我需要在託管在Google協作平臺上的網站中提取它。那可能嗎?
聽起來像你需要CPAN HTML::Parser模塊。
use HTML::Parser();
# Create parser object
$p = HTML::Parser->new(api_version => 3,
start_h => [\&start, "tagname, attr"],
end_h => [\&end, "tagname"],
marked_sections => 1,
);
# Parse directly from file
$p->parse_file("foo.html");
我不推薦使用HTML :: Parser,該模塊需要一些煩人的代碼來實現簡單的事情。更好和聲明:[Web :: Query](http://p3rl.org/Web::Query)(CSS選擇器),[HTML :: TreeBuilder :: XPath](http://p3rl.org/HTML :: TreeBuilder :: XPath)(XPath) – daxim
一個非常簡單的方式來獲得一個HTML頁面是LWP::Simple模塊。如果您必須執行更復雜的導航流程,請使用WWW::Mechanize。然後,如果您需要解析HTML代碼,那麼@ brian解決方案就很好。
謝謝。 LWP :: Simple工作正常。但是有沒有人會對我的第二個問題的答案有任何線索。我似乎無法訪問我的網站。 – user2590739