2009-02-23 16 views
0

我有一個「可搜索pdf」又名'具有不可見但可選擇文本的圖像文件'。 (當在Acrobat中打開此文件時,系統會提示「您正在以PDF/A模式查看此文檔」。)用於提取「可搜索pdf」中文本邊界的工具包和方法

我需要提取本文檔中每個單詞的邊界矩形。任何建議的工具包和訪問「invisi-text」單詞邊界框的方法?

我更喜歡java中的工具,但非常感謝您的任何建議。

回答

0

Acrobat的JavaScript庫看起來是最簡單,尤其是:

getPageNthWordQuads 

其在 「搜索PDF」 的作品。

將是很好,如果雜技演員JavaScript庫是可以作爲Java調用...

0

退房的iText庫:http://www.lowagie.com/iText/

+0

iText主要用於生成pdf文檔。我沒有看到API中的任何內容爲加載的pdf中的文本提取邊界框信息。 – jedierikb 2009-02-24 12:33:51

+0

是的,你是對的。對不起,關於流浪漢。也許http://support.idrsolutions.com/default.asp?W17是一個更好的選擇? – Richard 2009-02-24 17:09:09

0

PDFBOX和JPedal還提供文本提取方法。