我想開發一個網頁爬蟲,它從一個種子URL開始,然後抓取它發現屬於與種子URL相同的域的100個html頁面,並保留遍歷的URL的記錄以避免重複。我寫了以下內容,但$ url_count值似乎沒有增加,並且檢索到的URL包含甚至來自其他域的鏈接。我該如何解決這個問題?在這裏,我插入了stackoverflow.com作爲我的起始URL。使用perl的網絡爬蟲
use strict;
use warnings;
use LWP::Simple;
use LWP::UserAgent;
use HTTP::Request;
use HTTP::Response;
##open file to store links
open my $file1,">>", ("extracted_links.txt");
select($file1);
##starting URL
my @urls = 'http://stackoverflow.com/';
my $browser = LWP::UserAgent->new('IE 6');
$browser->timeout(10);
my %visited;
my $url_count = 0;
while (@urls)
{
my $url = shift @urls;
if (exists $visited{$url}) ##check if URL already exists
{
next;
}
else
{
$url_count++;
}
my $request = HTTP::Request->new(GET => $url);
my $response = $browser->request($request);
if ($response->is_error())
{
printf "%s\n", $response->status_line;
}
else
{
my $contents = $response->content();
$visited{$url} = 1;
@lines = split(/\n/,$contents);
foreach $line(@lines)
{
$line =~ [email protected](((http\:\/\/)|(www\.))([a-z]|[A-Z]|[0-9]|[/.]|[~]|[-_]|[()])*[^'">])@g;
print "$1\n";
push @urls, $$line[2];
}
sleep 60;
if ($visited{$url} == 100)
{
last;
}
}
}
close $file1;
請參閱此鏈接來獲得鏈接的根域名和比較,爲您的初始URL的根域:http://stackoverflow.com/questions/15627892/perl-regex-grab-everyting-直到/ 15628401#15628401 – imran
由於您將要提取URL和鏈接,請開始使用WWW :: Mechanize,它將爲您處理大部分苦差事。 –
我不能使用它,因爲我應該在沒有該軟件包的服務器上運行代碼,並且我沒有安裝它們的權限。 – user2154731