2015-02-10 106 views
0

我想讀取由多個表格組成的PDF文件的內容。通過使用Java和Adobe API,如果所有單元格都有一個signle行內容,我可以提取表格中的內容。問題出現在單元格有多行時,導致提取的內容移動到下一行,從而導致與表頭不匹配。使用Adobe API提取PDF內容

是否有任何方法可以從PDF中提取內容,使表格格式與在PDF中顯示的方式保持相同?我目前使用\ t轉義字符來提取數據。

+0

一般從打印格式的原始數據的提取需要來定位錨點知道何時轉變狀態中的應用。在你的表格中,你可能有分界線或某種關鍵文本的形式。我不想錯過這樣的工作。 – PaulProgrammer 2015-02-10 19:43:09

回答

0

PDF中的文本未格式化。他們似乎被格式化。同樣,表格只是線條圖和文字。您需要一個可以智能重構頁面元素的PDF庫。但是不管圖書館有多聰明,總會有幾條線路被打破。

下面是由我公司製作的Java PDF庫PDFOne嘗試的屏幕截圖。公平地說,可能有其他圖書館可以這樣做。你將不得不對你的PDF文件進行一些測試,看看哪一個是好的。

http://www.gnostice.com/nl_article.asp?id=232&t=PDF_Text_Search_And_PDF_Text_Extraction_Using_PDFOne_for_Java

enter image description here