從pdf中正確提取文本（UTF-8）

我想從某些pdf文件中提取文本（以編程方式，使用一些實用工具甚至複製/粘貼），但某些字符出來真的很奇怪。儘管我在提取文本時指定了UTF-8編碼，但「ş，ţ，ă」等字符看起來像「」˛「而不是」s，t，a「（或至少顯示的字符）。文本顯示正確，但當我嘗試複製它時，例如，這些字符不正確。
有什麼方法可以正確提取文本，或者這些pdf文件是以某種方式損壞的（java/C/python等或windows/linux/etc工具）？從pdf中正確提取文本（UTF-8）

來源

2012-05-18 Andrei F

您能從PDF中正確提取Acrobat中的文本嗎？

來源

2012-05-18 10:08:10

我用不同的設置以不同的格式「另存爲...」，但我無法正確地獲取文本。有什麼更復雜的，我應該嘗試？我真的不明白爲什麼文本顯示完美，但我不能提取它，因爲它顯示（或如果有一種方法）。 –

使用內置於PDF中的glyfs顯示文本。文本是使用其他信息提取的，所以沒有理由僅僅因爲您可以看到它而應該能夠提取它。如果您無法從Acrobat剪切並粘貼，則可能是未設置文本提取。 –

從pdf中正確提取文本（UTF-8）

回答

相關問題