2009-08-29 99 views
0

我想讀取一個現有的PDF文件,不僅獲得文本,而且格式信息如:字體(粗體,斜體...)和段落...是否有這是一個代碼庫,是開源還是商業?閱讀現有的PDF格式的所有文件信息

我在Windows上,喜歡C#庫,但C/C++也是可以接受的。

+0

什麼語言?環境? – 2009-08-29 14:11:03

回答

1

我可以很推薦 的PDFlib(http://www.pdflib.com/)。 它的商業,但它也有一個精簡版,你可以私下使用。它包含非常多的muach功能,可用於所有平臺。

0

我會在此迴應梅耶斯先生。似乎有一些他們;在您喜愛的搜索引擎中搜索「pdf解析器庫」(加上您的語言)。

幾個排名靠前:

http://www.lowagie.com/iText/

http://metacpan.org/pod/PDF::Parse

http://podofo.sourceforge.net/

http://www.vicman.net/download/13733/(數爲.NET)

需要注意的是,如果你想編輯現有的PDF,你可能想讀這個:

http://1t3xt.info/tutorials/faq.php?branch=faq.pdf_in_general&node=replace_word

+0

感謝TrueWill,我之前搜索過,發現其中一些可能在創建PDF時具有強大的能力,而解析時卻不那麼強大,我希望得到一些有經驗的人的指導,以便我可以跳到正確的方向而不花費太多時間評估所有這些圖書館。 – 2009-08-29 15:44:32

+0

在閱讀你推薦的文章後,我對是否有這樣的圖書館感到悲觀 – 2009-08-29 15:59:20

0

Pdfium.Net SDK也可以幫助你。通過此API,您可以訪問文本,圖像和其他對象及其屬性的集合。 請注意我在開發此API的公司工作。