2015-09-01 41 views
0

我使用PDFBox 1.8.10加載PDF並在每個頁面上疊加圖像。PDFBox PDFImageWrite.writeImage沒有正確處理所有字符

PDDocument doc = PDDocument.load(url); 
PDFImageWriter imageWriter = new PDFImageWriter(); 
imageWriter.writeImage(doc, imageFormat, password, 1, 
     doc.getNumberOfPages(), filePrefix, imageType, resolution); 

我試圖保存doc爲PDF,這看起來不錯。當圖像被保存時,它們可能包含不正確的文本。這是東歐文件更是如此 - 如匈牙利,波蘭,捷克等

的PDF顯示

H-4432 NYÍREGYHÁZA-NYÍRSZŐLŐS 

圖像顯示 enter image description here

是否有一個解決方案?我需要定義一個代碼頁嗎?這可能是可用字體的問題嗎?

+2

請參閱:http://stackoverflow.com/questions/22260344/pdfbox-encode-symbol-currency-euro –

+2

在1.x版本中,將PDF轉換爲圖像的PDFBox功能相當有限。它在2.0.0-SNAPSHOT開發版本中有很大的改進,參見參考資料。 [這個答案](http://stackoverflow.com/a/24238070/1729265),[這個答案](http://stackoverflow.com/a/22358240/1729265)和[this one](http:// stackoverflow.com/a/21547909/1729265)。不幸的是,PDFBox 2.0.0-SNAPSHOT API是一個移動目標,每隔一個月就會大量重構,所以這些答案中的代碼可能不再適用。 – mkl

回答

0

我的解決方案是切換到2.0 SNAPSHOT(Aug15)。我測試過的所有文件都很好看。 API已經改變,但在我的情況下,需要5分鐘才能完成更改。

感謝@mkl的信息。