我想讀取一個現有的PDF文件,不僅獲得文本,而且格式信息如:字體(粗體,斜體...)和段落...是否有這是一個代碼庫,是開源還是商業?閱讀現有的PDF格式的所有文件信息
我在Windows上,喜歡C#庫,但C/C++也是可以接受的。
我想讀取一個現有的PDF文件,不僅獲得文本,而且格式信息如:字體(粗體,斜體...)和段落...是否有這是一個代碼庫,是開源還是商業?閱讀現有的PDF格式的所有文件信息
我在Windows上,喜歡C#庫,但C/C++也是可以接受的。
我可以很推薦 的PDFlib(http://www.pdflib.com/)。 它的商業,但它也有一個精簡版,你可以私下使用。它包含非常多的muach功能,可用於所有平臺。
我會在此迴應梅耶斯先生。似乎有一些他們;在您喜愛的搜索引擎中搜索「pdf解析器庫」(加上您的語言)。
幾個排名靠前:
http://metacpan.org/pod/PDF::Parse
http://podofo.sourceforge.net/
http://www.vicman.net/download/13733/(數爲.NET)
需要注意的是,如果你想編輯現有的PDF,你可能想讀這個:
http://1t3xt.info/tutorials/faq.php?branch=faq.pdf_in_general&node=replace_word
感謝TrueWill,我之前搜索過,發現其中一些可能在創建PDF時具有強大的能力,而解析時卻不那麼強大,我希望得到一些有經驗的人的指導,以便我可以跳到正確的方向而不花費太多時間評估所有這些圖書館。 – 2009-08-29 15:44:32
在閱讀你推薦的文章後,我對是否有這樣的圖書館感到悲觀 – 2009-08-29 15:59:20
Pdfium.Net SDK也可以幫助你。通過此API,您可以訪問文本,圖像和其他對象及其屬性的集合。 請注意我在開發此API的公司工作。
什麼語言?環境? – 2009-08-29 14:11:03