去年,我使用PDFBox在Java中創建了一個應用程序來獲取某些PDF文件中的原始文本,現在我需要將該應用程序移植到C++。是否有一個C++庫從PDF文件(如PDFBox for Java)中提取文本?
我想知道什麼是最好的C++替代方案來完成我所需要的。
我舉個例子的情況下,它可以幫助:
大多數文件將是這樣的:http://www.jumbala.net/backup/league.pdf
隨着PDFBox的,使用該文件中,每一行讀第2頁和最多3頁會輸出一行的所有數據,用空格分隔,而不是像現在一樣將它保存在網格中。
所以在第2頁第一行有關是這樣的:
FB 847 - Tremblay, Gérard 179,63 56 16167 90 268 s27 p3 669 s14 199 223 193 615
或類似的東西,因爲有在它們出現的順序細微的變化,但我不只要關心這個類似的行輸出相同,因爲我只是解析它們並將我需要的值放入不同的變量中。
因此,瞭解所有這些,是否有一個庫可以在C++程序中使用以獲得類似的結果?
編輯:看着sacredFaith的鏈接http://www.codeproject.com/Articles/7056/Code-to-extract-plain-text-from-a-PDF-file並試圖後,我越來越喜歡這樣一個奇怪的輸出,因爲我前面提到的示例文件:
http://www.jumbala.net/backup/league.pdf.txt
的部分我真的需要在開始的時候都是奇怪的角色。使用Adobe Acrobat Reader X和使用另存爲...文本(訪問),我得到以下結果:
http://www.jumbala.net/backup/league_good.pdf.txt
這大約是我在Java中得到使用PDFBox的什麼,我想作爲輸出在C++中。
也許這可以幫助http://stackoverflow.com/questions/3784554/creating-a-pdf-reader-in-c – grifos 2012-03-30 23:08:45
@grifos我看着它,我可能會稍後詳細看它,但我寧願有一個已經制作好的庫,因爲我不想閱讀整個PDF規範文檔。不過,您發佈的偉大鏈接,稍後可能會派上用場,謝謝! – 2012-03-31 14:27:15
在鏈接中,他們還提供了一個關於C++庫PoDoFo的功能,它允許您解析pdf並提取信息。 – grifos 2012-03-31 15:14:05