2017-03-18 49 views
0

我有PDF文件與烏克蘭文字(西裏爾字母)。但是,當我複製並粘貼到一些輸入欄,我得到的東西旁邊:未知的PDF編碼

ȿɄɈɇɈɆȱɄɈ-ɋɌȺɌɂɋɌɂɑɇɂɃ ȺɇȺɅȱɁ ȼɂȻȱɊɄɈȼɈȽɈ 

沒有一個文本檢測或轉換器並沒有幫助我。

它是什麼以及如何複製正常的烏克蘭文本?

+0

這是在Adobe Acrobat或其他工具? – Dai

+0

@Dai我試着用很多應用程序和瀏覽器打開它。結果是一樣的。它看起來不錯,但我不能複製它。 –

回答

1

該PDF可能已創建嵌入式字體子集和沒有toUnicode映射。基本上,PDF內容中使用的字符代碼被映射到PDF中嵌入的字形,但是沒有將這些代碼映射到常規Unicode代碼,因此複製它們會產生亂碼。提取原始內容的唯一方法是使用某種形式的OCR。