如何從非ASCII編碼的PDF中剪切粘貼？

我有一些PDF文件，我試圖從Acrobat Reader中將它們包含的文本剪切並粘貼到HTML表單中。似乎有些文件使用（我懷疑）用於文本編碼的unicode，所以當我嘗試粘貼到HTML表單（在Firefox上）時，我得到了帶有十六進制字符的小框，而不是可讀的文本。問題不在於PDF未被OCR - 當我在Acrobat Pro中嘗試這樣做時，它說它不能，因爲該文件已經包含可呈現文本。有什麼辦法可以解決這個問題嗎？例如，我可以添加一些JavaScript的形式，將做轉換？如何從非ASCII編碼的PDF中剪切粘貼？

來源

2012-02-04 Steve

是否可以將從文件複製的文本粘貼到其他程序（如記事本或Word或其他程序）中？

某些PDF文件的生成過程中沒有特別的信息，這些信息對於從中成功提取文本至關重要。即使通過Adobe工具。基本上，這些文件不包含字形到字符映射信息。

這樣的文件將被顯示和打印得很好，但是文本不能被正確地複製/提取。

例如，Distiller在使用「最小文件大小」預設時會生成這樣的文件。

來源

2012-02-04 19:37:37 Bobrovsky

無論我在哪裏粘貼 - 記事本，Word等，我都會得到相同的結果。我想也許你對PDF文件是正確的。如果我在Acrobat Pro中打開此文件，請複製其中的一些文本，然後打開粘滯便箋並嘗試粘貼文本，然後使用方框代替字符。所以即使Acrobat也無法處理這些文字。 – Steve 2012-02-04 20:15:50

由於缺乏合適的字體，文本很可能包含正確複製的字符，但瀏覽器無法顯示它們。 PDF文檔可能包含嵌入字體，所以Adobe Reader顯示字符OK，但瀏覽器無法訪問這些字體。

您可以通過嘗試在這裏複製和粘貼字符來檢查這是否是原因（無論如何，這可能是有用的信息）。您也可以下載並安裝Code200x fonts，其中包含幾乎所有您通常會遇到的角色。（不保證，但很可能，Firefox將能夠在需要時自動使用這些字體。）

來源

2012-02-04 19:22:06

嘗試了字體，沒有幫助。另外，當我將這些字符粘貼到IDE（Komodo）中時，它說默認編碼cp-1252不適合，當我更改爲unicode時，它變得很快樂。 – Steve 2012-02-04 20:08:58

我有同樣的問題......事實上，這是在這裏解釋：http://forums.adobe.com/thread/915012

我的解決辦法是使用Acrobat的導出工具將PDF轉換成Word，然後解壓，我從它需要的信息。

這是令人沮喪的，但那項工作。

我找到的另一個解決方案是將圖像轉換爲pdf（jpeg，png等），然後運行OCR過程。

來源

2013-11-29 18:02:50 Piotr002

我有同樣的問題，但我通過打開PDF文件與網頁瀏覽器（在我的情況下鉻）解決了它。複製並粘貼非ASCII編碼可以在Chrome中正常工作。

來源

2016-01-08 11:09:43 user5762406

選擇Acrobat中的文本。
右鍵單擊並從上下文菜單中選擇「使用格式複製」。
等待進度條處理文本。
粘貼在Word文檔中。

來源

2016-01-15 22:27:58 David

我們曾嘗試從PDF文件複製/粘貼西里爾文到Excel中的類似問題。

我們發現的最簡單的解決方案是用瀏覽器（Chrome，Mozilla或Opera）打開.pdf，並在Word，Excel中複製/粘貼文本。

它沒有按預期與IE一起工作。

來源

2017-07-28 06:47:33 MKamenova

如何從非ASCII編碼的PDF中剪切粘貼？

回答

相關問題