pdf-extraction

0熱度

1回答

我想從某些pdf文件中提取文本（以編程方式，使用一些實用工具甚至複製/粘貼），但某些字符出來真的很奇怪。儘管我在提取文本時指定了UTF-8編碼，但「ş，ţ，ă」等字符看起來像「」˛「而不是」s，t，a「（或至少顯示的字符）。文本顯示正確，但當我嘗試複製它時，例如，這些字符不正確。有什麼方法可以正確提取文本，或者這些pdf文件是以某種方式損壞的（java/C/python等或windows/li

3熱度

4回答

iText - 獲取文本段的字體大小和族

我正在嘗試從PDF文件中自動提取重要的關鍵字。我能夠從PDF文檔中獲取文本信息。但是現在我需要知道，這些關鍵字具有哪種字體大小和字體系列。下面的代碼我已經有：主要 public static void main(String[] args) throws IOException { String src = "SEM_081145.pdf"; PdfReader read

0熱度

1回答

pdf解析爲文本使用java

我有同樣的問題從pdf文件中提取阿拉伯文本，任何人都可以幫助如果得到解決方案??? 我已經嘗試了很多次，但沒有結果。