2010-07-13 44 views
7

我想將PDF數據轉換爲我們自己的文件規範。 所以,請幫助我選擇使用java或.net解析PDF的正確API。解析應該從PDF頁面中提取每個組件(元素)。PDF Java中的解析器API

回答

2

有一個名爲IText的庫,可以實現您想要的功能。它是那裏排名第一的產品,和啤酒一樣是免費的。

我以前使用過IText,從PDF中提取內容,雖然它不是超級自動的,它可以讓你獲得一切。換句話說,推薦使用

+2

@Naimur它在AGPL,你可能想要檢查許可證與你的程序的兼容性。 – 2010-07-13 08:31:31

+1

除此之外,PDF參考將需要了解格式。你可以在這裏找到它(ISO收費,頁面末尾的免費鏈接):http://www.adobe.com/devnet/pdf/pdf_reference.html – Stroboskop 2010-07-13 08:33:43

+0

非常感謝carl ..其實我只開始使用iText ..我想知道如何獲得不可讀格式的文本(一些複雜的pdf結構)。此外,我需要得到的PDF格式的形式,無論是可掃描的形式或預印刷的形式或東西埃爾斯.. 在此先感謝。 – Naimur 2010-07-13 08:33:49

0

元素不存在於PDF文件中。它是一組生成頁面的PDF對象。