我使用PDFBox的1.8.4將PDF轉換爲字符串。 例如我的pdf包含:Pólya,G.和G.Szegő, 輸出:Po'lya,G.和G.Szego˝PDFBox的性格壞字符字符串談話
有沒有什麼辦法可以解決這個問題? (是的,我知道我可以用replaceAll(「o'」,「ó」)來改變)
PDDocument doc = PDDocument.load(path);
PDFTextStripper strp = new PDFTextStripper("UTF-8");
System.out.println(strp.getText(doc));
歡迎任何建議!
編輯1: PDF_Example
請出示有問題的PDF。這可能是PDFBox的一個缺點,但它也可能是PDF的一個問題。 – mkl
嗨。我將它添加到問題中。 – hEngi