pdf-extraction

    0熱度

    1回答

    我想從某些pdf文件中提取文本(以編程方式,使用一些實用工具甚至複製/粘貼),但某些字符出來真的很奇怪。儘管我在提取文本時指定了UTF-8編碼,但「ş,ţ,ă」等字符看起來像「」˛「而不是」s,t,a「(或至少顯示的字符)。 文本顯示正確,但當我嘗試複製它時,例如,這些字符不正確。 有什麼方法可以正確提取文本,或者這些pdf文件是以某種方式損壞的(java/C/python等或windows/li

    3熱度

    4回答

    我正在嘗試從PDF文件中自動提取重要的關鍵字。我能夠從PDF文檔中獲取文本信息。但是現在我需要知道,這些關鍵字具有哪種字體大小和字體系列。 下面的代碼我已經有: 主要 public static void main(String[] args) throws IOException { String src = "SEM_081145.pdf"; PdfReader read

    0熱度

    1回答

    我有同樣的問題從pdf文件中提取阿拉伯文本, 任何人都可以幫助如果得到解決方案??? 我已經嘗試了很多次,但沒有結果。