未知的PDF編碼

我有PDF文件與烏克蘭文字（西裏爾字母）。但是，當我複製並粘貼到一些輸入欄，我得到的東西旁邊：未知的PDF編碼

ȿɄɈɇɈɆȱɄɈ-ɋɌȺɌɂɋɌɂɑɇɂɃ ȺɇȺɅȱɁ ȼɂȻȱɊɄɈȼɈȽɈ

沒有一個文本檢測或轉換器並沒有幫助我。

它是什麼以及如何複製正常的烏克蘭文本？

這是在Adobe Acrobat或其他工具？ – Dai

@Dai我試着用很多應用程序和瀏覽器打開它。結果是一樣的。它看起來不錯，但我不能複製它。 –

該PDF可能已創建嵌入式字體子集和沒有toUnicode映射。基本上，PDF內容中使用的字符代碼被映射到PDF中嵌入的字形，但是沒有將這些代碼映射到常規Unicode代碼，因此複製它們會產生亂碼。提取原始內容的唯一方法是使用某種形式的OCR。

2017-03-19 11:09:40 lecstor

回答