我使用的iText 5.3.3iText摘錄「?」而不是「網絡連接」
我嘗試提取PDF文件的文本。
我用類似的東西:
File f (....)
FileInputStream fis = new FileInputStream(f);
r = new PdfReader(fis);
String s=PdfTextExtractor.getTextFromPage(r, 1);
System.out.print(s);
我得到這樣的:
「(...)新加坡航空公司造成史上第一個致命交通意外(危機... )」
文本:
「(...)新加坡航空公司的歷史(由第一致命崩潰的危機......)」
或: 「?(...)全國運營商和最終結論表明需要對(......)」
文本: 「(...)全國運營商和最終結論表明需要(...)「
如你所見,我得到」?「 ins的「fi」。
作爲HRN在他的回答中指出,有用於某些字符組合連字字形。如果此字形具有適當的Unicode映射,則它將映射到Unicode選擇的連字符,而不是分隔字符。很有可能您的控制檯字體不知道該字符,因此顯示「?」。另一方面,如果我們沒有適當的映射到一個Unicode字符,文本提取例程不知所措,也可能包含一個「?」字符。爲進行分析,請提供文件。 – mkl