我一直在使用Perl來抓取和抓取各種不同的目的,有一件事情總是讓我感到困擾的是,雖然有很多用於小規模抓取和抓取的很好的CPAN模塊,比如LWP ,WWW :: Mechanize,Web :: Scraper,AnyEvent :: HTTP和現在的Mojo :: UserAgent,似乎沒有任何爬行框架的方式與其他語言相同。Perl網頁抓取框架
例如Apache Nutch(/ Droids)& Scrapy(Python)。
任何人都知道Perl中的任何項目都是等價的嗎?
我一直在使用Perl來抓取和抓取各種不同的目的,有一件事情總是讓我感到困擾的是,雖然有很多用於小規模抓取和抓取的很好的CPAN模塊,比如LWP ,WWW :: Mechanize,Web :: Scraper,AnyEvent :: HTTP和現在的Mojo :: UserAgent,似乎沒有任何爬行框架的方式與其他語言相同。Perl網頁抓取框架
例如Apache Nutch(/ Droids)& Scrapy(Python)。
任何人都知道Perl中的任何項目都是等價的嗎?
你可能需要看看模塊,如HTML::Robot::Scrapper或 HTTP::UserAgentString::Robot,我覺得有幾個與robot在他們的名字。
見http://www.perlmonks.org/?node_id=1055183和https://metacpan.org/pod/Scrappy – dg123
有趣的感謝,雖然在字符串Scrappy中指出似乎停滯不前。很好的編譯工具,但仍然缺乏框架 – hammondos