2011-11-09 201 views
0

我正在嘗試從pdf文件中提取文本。文本可以在Acrobat中選擇。 Acrobat列出了帶有類型的ArialUnicodeMS字體:TrueType(CID)和編碼:Identity-H。用iText提取Identity-H編碼文本

使用片斷

PdfReader reader = new PdfReader(filePath); 
String content = PdfTextExtractor.getTextFromPage(reader, 1); 

我得到的東西回來,但是當輸出到標準輸出或文件(輸出看起來像空白字符),它是不可讀的。我如何提取Identity-H編碼文本?

回答

0

這是一個很長的,但你有沒有嘗試將你的PDF設置爲版本1.2,身份-H編碼是字體的雙字節編碼,這主要用於亞洲字體和所有Indesign生成的pdf。

如果你沒有pdf中的特徵,比如漸變,透明度,你可以嘗試一下(在你做之前做一個你的pdf的備份,就像我之前說的那樣,只是想一想)

+0

謝謝你的回答。我無法改變我的PDF格式以便閱讀。我切換到顯然沒有問題的pdfbox。 – ipavlic