0
我正在嘗試從pdf文件中提取文本。文本可以在Acrobat中選擇。 Acrobat列出了帶有類型的ArialUnicodeMS字體:TrueType(CID)和編碼:Identity-H。用iText提取Identity-H編碼文本
使用片斷
PdfReader reader = new PdfReader(filePath);
String content = PdfTextExtractor.getTextFromPage(reader, 1);
我得到的東西回來,但是當輸出到標準輸出或文件(輸出看起來像空白字符),它是不可讀的。我如何提取Identity-H編碼文本?
謝謝你的回答。我無法改變我的PDF格式以便閱讀。我切換到顯然沒有問題的pdfbox。 – ipavlic