我正在使用CAM :: PDF Perl模塊來解析PDF。除了一個問題,模塊工作得很好,它似乎隨機分割單詞。是否有任何方法通過設置或某種算法將這些單詞重新組合起來?Perl CAM :: PDF分裂文字不正確
例如:
「在紐約和都柏林設有辦事處。」 -Notice紐約
「價格competit離子」 正價競爭
的一段代碼低於:
$pdf = CAM::PDF->new($pdf_name);
$text = $pdf->getPageText($page);
print("$text\n");
;
您是如何使用模塊的?顯示你的代碼,讓想要幫助的人有一些事情可以開始。 – daxim 2011-06-06 19:49:28