2012-02-04 63 views
5

我有一些PDF文件,我試圖從Acrobat Reader中將它們包含的文本剪切並粘貼到HTML表單中。似乎有些文件使用(我懷疑)用於文本編碼的unicode,所以當我嘗試粘貼到HTML表單(在Firefox上)時,我得到了帶有十六進制字符的小框,而不是可讀的文本。問題不在於PDF未被OCR - 當我在Acrobat Pro中嘗試這樣做時,它說它不能,因爲該文件已經包含可呈現文本。有什麼辦法可以解決這個問題嗎?例如,我可以添加一些JavaScript的形式,將做轉換?如何從非ASCII編碼的PDF中剪切粘貼?

回答

8

是否可以將從文件複製的文本粘貼到其他程序(如記事本或Word或其他程序)中?

某些PDF文件的生成過程中沒有特別的信息,這些信息對於從中成功提取文本至關重要。即使通過Adobe工具。基本上,這些文件不包含字形到​​字符映射信息。

這樣的文件將被顯示和打印得很好,但是文本不能被正確地複製/提取。

例如,Distiller在使用「最小文件大小」預設時會生成這樣的文件。

+1

無論我在哪裏粘貼 - 記事本,Word等,我都會得到相同的結果。我想也許你對PDF文件是正確的。如果我在Acrobat Pro中打開此文件,請複製其中的一些文本,然後打開粘滯便箋並嘗試粘貼文本,然後使用方框代替字符。所以即使Acrobat也無法處理這些文字。 – Steve 2012-02-04 20:15:50

1

由於缺乏合適的字體,文本很可能包含正確複製的字符,但瀏覽器無法顯示它們。 PDF文檔可能包含嵌入字體,所以Adobe Reader顯示字符OK,但瀏覽器無法訪問這些字體。

您可以通過嘗試在這裏複製和粘貼字符來檢查這是否是原因(無論如何,這可能是有用的信息)。您也可以下載並安裝Code200x fonts,其中包含幾乎所有您通常會遇到的角色。 (不保證,但很可能,Firefox將能夠在需要時自動使用這些字體。)

+0

嘗試了字體,沒有幫助。另外,當我將這些字符粘貼到IDE(Komodo)中時,它說默認編碼cp-1252不適合,當我更改爲unicode時,它變得很快樂。 – Steve 2012-02-04 20:08:58

3

我有同樣的問題......事實上,這是在這裏解釋:http://forums.adobe.com/thread/915012

我的解決辦法是使用Acrobat的導出工具將PDF轉換成Word,然後解壓,我從它需要的信息。

這是令人沮喪的,但那項工作。

我找到的另一個解決方案是將圖像轉換爲pdf(jpeg,png等),然後運行OCR過程。

0

我有同樣的問題,但我通過打開PDF文件與網頁瀏覽器(在我的情況下鉻)解決了它。 複製並粘貼非ASCII編碼可以在Chrome中正常工作。

2
  1. 選擇Acrobat中的文本。
  2. 右鍵單擊並從上下文菜單中選擇「使用格式複製」。
  3. 等待進度條處理文本。
  4. 粘貼在Word文檔中。
0

我們曾嘗試從PDF文件複製/粘貼西里爾文到Excel中的類似問題。

我們發現的最簡單的解決方案是用瀏覽器(Chrome,Mozilla或Opera)打開.pdf,並在Word,Excel中複製/粘貼文本。

它沒有按預期與IE一起工作。