2011-08-29 127 views
1

有人可以推薦一個庫(Linux二進制文件,jar或源代碼)從帶標籤的PDF文件中提取標籤樹嗎?我嘗試了PDFMiner,但是它在我試過的第一個文件上崩潰了從PDF中提取標籤

回答

1

你試過用iText嗎?查看PDFVole,查看使用iText可視化顯示此樹的項目示例。儘管如此,您將無法將樹節點與其對應的頁面內容鏈接起來。

+0

看起來很有前途,但在我能找到的第一個標記PDF上崩潰(www.adobe.com/enterprise/accessibility/pdfs/acro6_pg_ue.pdf) –

+0

那是webstart版本,獨立jar看起來很好 –