用於提取「可搜索pdf」中文本邊界的工具包和方法

我有一個「可搜索pdf」又名'具有不可見但可選擇文本的圖像文件'。（當在Acrobat中打開此文件時，系統會提示「您正在以PDF/A模式查看此文檔」。）用於提取「可搜索pdf」中文本邊界的工具包和方法

我需要提取本文檔中每個單詞的邊界矩形。任何建議的工具包和訪問「invisi-text」單詞邊界框的方法？

我更喜歡java中的工具，但非常感謝您的任何建議。

2009-02-23 jedierikb

Acrobat的JavaScript庫看起來是最簡單，尤其是：

getPageNthWordQuads

其在「搜索PDF」的作品。

將是很好，如果雜技演員JavaScript庫是可以作爲Java調用...

2009-02-24 14:33:05 jedierikb

2009-02-24 08:44:26 Richard

iText主要用於生成pdf文檔。我沒有看到API中的任何內容爲加載的pdf中的文本提取邊界框信息。 – jedierikb 2009-02-24 12:33:51

是的，你是對的。對不起，關於流浪漢。也許http://support.idrsolutions.com/default.asp?W17是一個更好的選擇？ – Richard 2009-02-24 17:09:09

PDFBOX和JPedal還提供文本提取方法。

2009-02-26 09:02:02

回答