用iText提取Identity-H編碼文本

我正在嘗試從pdf文件中提取文本。文本可以在Acrobat中選擇。 Acrobat列出了帶有類型的ArialUnicodeMS字體：TrueType（CID）和編碼：Identity-H。用iText提取Identity-H編碼文本

使用片斷

PdfReader reader = new PdfReader(filePath); 
String content = PdfTextExtractor.getTextFromPage(reader, 1);

我得到的東西回來，但是當輸出到標準輸出或文件（輸出看起來像空白字符），它是不可讀的。我如何提取Identity-H編碼文本？

2011-11-09 ipavlic

這是一個很長的，但你有沒有嘗試將你的PDF設置爲版本1.2，身份-H編碼是字體的雙字節編碼，這主要用於亞洲字體和所有Indesign生成的pdf。

如果你沒有pdf中的特徵，比如漸變，透明度，你可以嘗試一下（在你做之前做一個你的pdf的備份，就像我之前說的那樣，只是想一想）

2011-11-10 10:32:16

謝謝你的回答。我無法改變我的PDF格式以便閱讀。我切換到顯然沒有問題的pdfbox。 – ipavlic

回答