2013-10-24 96 views
3

我一直在使用Perl來抓取和抓取各種不同的目的,有一件事情總是讓我感到困擾的是,雖然有很多用於小規模抓取和抓取的很好的CPAN模塊,比如LWP ,WWW :: Mechanize,Web :: Scraper,AnyEvent :: HTTP和現在的Mojo :: UserAgent,似乎沒有任何爬行框架的方式與其他語言相同。Perl網頁抓取框架

例如Apache Nutch(/ Droids)& Scrapy(Python)。

任何人都知道Perl中的任何項目都是等價的嗎?

+0

見http://www.perlmonks.org/?node_id=1055183和https://metacpan.org/pod/Scrappy – dg123

+0

有趣的感謝,雖然在字符串Scrappy中指出似乎停滯不前。很好的編譯工具,但仍然缺乏框架 – hammondos

回答

1

你可能需要看看模塊,如HTML::Robot::ScrapperHTTP::UserAgentString::Robot,我覺得有幾個與robot在他們的名字。

+0

Thanks - HTML :: Robot :: Scrapper似乎與我所想的最接近;因爲Python的Scrapy對於Perl來說具有完整的,全功能的爬行框架以及完整的交互式shell等是非常好的。像Mojolicious/Dancer等類似於可擴展的並行分佈式爬行。 Mojolicious把我帶回了Perl的web開發者,不得不說我在Python/Ruby中的抓取框架正在把我拉走:/ – hammondos

+1

爲什麼不爲Perl實現最棒的抓取模塊呢? – szabgab

+1

哈哈很想 - 現在不幸有點超出我的技能水平,但也許有一天:) – hammondos