有沒有可靠的方法來檢測帶有perl腳本的空白頁?我試圖通過使用getPageText方法來執行以下腳本。如果我這樣做,只包含沒有文字圖形的頁面也會被識別爲空白頁面。用perl檢測並刪除PDF文件中的空白頁
#!/usr/bin/perl -w
use CAM::PDF;
my $filename=$ARGV[0];
my $doc = CAM::PDF->new($filename) || die "$CAM::PDF::errstr\n";
my $pages = $doc->numPages();
print $pages;
$content=$doc->getPageText(1);
print "length".length($content);
if(length($content)==0)
{
print "File is empty";
}
foreach my $p (1 .. $doc->numPages()) {
my $str = $doc->getPageText($p);
$str =~ m/[[:alnum:]]+/ms); # actually returned text
print "Result text:".qq($str);
}
是否有另一種方法來查找空白頁?
我希望你意識到這是非常危險的?十乘十像素的圖像可能不會對文件大小產生任何影響,所以你會錯過這個。如何處理僅包含空白字符的頁面(這將作爲文本返回,但不會標記頁面)。用矢量圖繪製簡單的頁面背景怎麼樣?這將需要大約40個字符左右的畫,但不會以任何方式顯示......有龍! –
我知道。我沒有說這是一種好的或可靠的方法,但我沒有更好的方法。這裏有很多不同的pdf :-( – user1126070