以編程方式從一堆網頁中提取結構化數據的最簡單方法是什麼？

以編程方式從一堆網頁中提取結構化數據的最簡單方法是什麼？以編程方式從一堆網頁中提取結構化數據的最簡單方法是什麼？

我目前正在使用我編寫的Adobe AIR程序來跟蹤一頁上的鏈接，並從後續頁面中獲取一段數據。這實際上工作正常，對於程序員，我認爲這個（或其他語言）提供了一個合理的方法，以個案爲基礎寫入。也許有一種特定的語言或圖書館可以讓程序員很快做到這一點，如果有的話，我會有興趣知道它們是什麼。

此外，還有任何工具可以讓非程序員（如客戶支持代表或負責數據採集的人員）從網頁中提取結構化數據，而無需執行大量的複製和粘貼操作？

來源

2009-12-18 dennisjtaylor

如果您WWW::Mechanize & pQuery＃2做搜索，你會使用這些Perl的CPAN模塊看到很多例子。

但是，因爲您提到「非程序員」，那麼或許Web::Scraper CPAN模塊可能更合適？它更像DSL之類，因此對於「非程序員」來說可能更容易接受。

下面是從文檔從Twitter獲取鳴叫一個例子：

use URI; 
use Web::Scraper; 

my $tweets = scraper { 
    process "li.status", "tweets[]" => scraper { 
     process ".entry-content", body => 'TEXT'; 
     process ".entry-date",  when => 'TEXT'; 
     process 'a[rel="bookmark"]', link => '@href'; 
    }; 
}; 

my $res = $tweets->scrape(URI->new("http://twitter.com/miyagawa")); 

for my $tweet (@{$res->{tweets}}) { 
    print "$tweet->{body} $tweet->{when} (link: $tweet->{link})\n"; 
}

來源

2009-12-18 20:19:31 draegtun