我有我認爲是由apache fop生成的PDF/A-1a文件,並在pdfbox中使用OverlayPDF進行覆蓋信頭。印前檢查將文件識別爲OK(但顯然只是PDF/A-1b),Acroreader在文檔屬性中表示它爲「PDF/A」模式和「標記:是」。我想看看這是怎麼回事,以便我可以調整fop進行一些小的改進。使用pdfbox在PDF/A-1a中查找標記的內容
我的問題是,我在哪裏可以看到帶標籤的內容(即,PDF中的內容是字符輸出的字符串的文本表示),最好不用自己編碼,例如,使用pdfbox中的調試器/ PDFReader?我有點迷路了 - 是否有另一種方式獲得文檔結構的文本輸出,例如到一個XML文件中使用編輯器來搜索它? - TIA!
編輯
的信頭(一個或多個)本身是原本PostScript和使用ghostscript的,然後用
java -jar pdfbox-app-2.0.0-RC3.jar OverlayPDF letter_plain.pdf \
followingpages_letterhead.pdf -first firstpage_letterhead.pdf \
letter_with_head.pdf
重疊的letter_plain.pdf使用具有FOP生成轉換爲PDF/A-1b的
fop -pdfprofile 'PDF/A-1a' -v -d -c my_fop_config.cfg -xml letter.xml \
-xsl letter_to_fo.xsl -pdf letter_plain.pdf
使用的版本是pdfbox 2.0和fop 1.1。
如果letter_with_head.pdf不再是PDF/A-1a,那麼問題將應用於letter_plain.pdf,它應該是1a的fop調用,必須選擇不同的解決方案(如svg)然後拿到信頭。
編輯2
例PDF可以在這裏找到:https://www.magentacloud.de/share/j9qk7jfzyv - 沒有需要單獨followingpages_letterhead.pdf作爲樣品只有一個頁面。
編輯3
我有懷疑,文字埋藏着低於Root/StructTreeRoot/ParentTree/Nums/[1]/[3]/P/P/P/P/P/P
(假設P公司在某種程度上映射fo:block
的),但不能得逞顯示從PDF文本。
是否可以共享有問題的文檔? –
樣本pdfs在這裏https://www.magentacloud.de/share/j9qk7jfzyv –
首先,Adobe Acrobat Preflight聲稱在letter_plain.pdf中已經有許多PDF/A-1a有效性問題。 – mkl