2012-10-23 105 views

回答

0

提取HTML文檔部分的好模塊是HTML::Query

它提供了一個類似jQuery的界面,用於選擇要提取的文檔的哪一部分。

+0

[Mojo :: DOM](http://p3rl.org/Mojo::DOM)提供了一整套CSS3選擇器,包括['n-type-type'](http://mojolicio.us/perldoc/Mojo/DOM/CSS#Enthoftypen),它似乎HTML :: Query缺乏 –

1

您可以使用諸如衆所周知Perl模塊做到這一點:

  • LWP
  • WWW::Mechanize
  • HTML::TreeBuilder
  • HTML::TreeBuilder::XPath

全部在http://search.cpan.org

最後一個Perl模塊,是真正有用的,你可以使用Xpath這樣的表達式:

//table[0]/tr[3]/td[2]/text() 

通過實例,從第一table打印第二td元素的文本中的第三tr

相關問題