2012-05-18 38 views
0

我想從某些pdf文件中提取文本(以編程方式,使用一些實用工具甚至複製/粘貼),但某些字符出來真的很奇怪。儘管我在提取文本時指定了UTF-8編碼,但「ş,ţ,ă」等字符看起來像「」˛「而不是」s,t,a「(或至少顯示的字符)。 文本顯示正確,但當我嘗試複製它時,例如,這些字符不正確。
有什麼方法可以正確提取文本,或者這些pdf文件是以某種方式損壞的(java/C/python等或windows/linux/etc工具)?從pdf中正確提取文本(UTF-8)

回答

0

您能從PDF中正確提取Acrobat中的文本嗎?

+0

我用不同的設置以不同的格式「另存爲...」,但我無法正確地獲取文本。有什麼更復雜的,我應該嘗試? 我真的不明白爲什麼文本顯示完美,但我不能提取它,因爲它顯示(或如果有一種方法)。 –

+0

使用內置於PDF中的glyfs顯示文本。文本是使用其他信息提取的,所以沒有理由僅僅因爲您可以看到它而應該能夠提取它。如果您無法從Acrobat剪切並粘貼,則可能是未設置文本提取。 –