我有一些PDF文件,我試圖從Acrobat Reader中將它們包含的文本剪切並粘貼到HTML表單中。似乎有些文件使用(我懷疑)用於文本編碼的unicode,所以當我嘗試粘貼到HTML表單(在Firefox上)時,我得到了帶有十六進制字符的小框,而不是可讀的文本。問題不在於PDF未被OCR - 當我在Acrobat Pro中嘗試這樣做時,它說它不能,因爲該文件已經包含可呈現文本。有什麼辦法可以解決這個問題嗎?例如,我可以添加一些JavaScript的形式,將做轉換?如何從非ASCII編碼的PDF中剪切粘貼?
回答
是否可以將從文件複製的文本粘貼到其他程序(如記事本或Word或其他程序)中?
某些PDF文件的生成過程中沒有特別的信息,這些信息對於從中成功提取文本至關重要。即使通過Adobe工具。基本上,這些文件不包含字形到字符映射信息。
這樣的文件將被顯示和打印得很好,但是文本不能被正確地複製/提取。
例如,Distiller在使用「最小文件大小」預設時會生成這樣的文件。
由於缺乏合適的字體,文本很可能包含正確複製的字符,但瀏覽器無法顯示它們。 PDF文檔可能包含嵌入字體,所以Adobe Reader顯示字符OK,但瀏覽器無法訪問這些字體。
您可以通過嘗試在這裏複製和粘貼字符來檢查這是否是原因(無論如何,這可能是有用的信息)。您也可以下載並安裝Code200x fonts,其中包含幾乎所有您通常會遇到的角色。 (不保證,但很可能,Firefox將能夠在需要時自動使用這些字體。)
嘗試了字體,沒有幫助。另外,當我將這些字符粘貼到IDE(Komodo)中時,它說默認編碼cp-1252不適合,當我更改爲unicode時,它變得很快樂。 – Steve 2012-02-04 20:08:58
我有同樣的問題......事實上,這是在這裏解釋:http://forums.adobe.com/thread/915012
我的解決辦法是使用Acrobat的導出工具將PDF轉換成Word,然後解壓,我從它需要的信息。
這是令人沮喪的,但那項工作。
我找到的另一個解決方案是將圖像轉換爲pdf(jpeg,png等),然後運行OCR過程。
我有同樣的問題,但我通過打開PDF文件與網頁瀏覽器(在我的情況下鉻)解決了它。 複製並粘貼非ASCII編碼可以在Chrome中正常工作。
- 選擇Acrobat中的文本。
- 右鍵單擊並從上下文菜單中選擇「使用格式複製」。
- 等待進度條處理文本。
- 粘貼在Word文檔中。
我們曾嘗試從PDF文件複製/粘貼西里爾文到Excel中的類似問題。
我們發現的最簡單的解決方案是用瀏覽器(Chrome,Mozilla或Opera)打開.pdf,並在Word,Excel中複製/粘貼文本。
它沒有按預期與IE一起工作。
- 1. VBA代碼剪切和粘貼
- 2. VBA vlookup,剪切和粘貼
- 3. Qt「複製/粘貼/剪切」
- 4. 在Vim編輯器中如何剪切和粘貼?
- 5. 我的RichTextBox的剪切/複製/粘貼不剪切,複製或粘貼
- 6. 如何從剪貼板粘貼到硒
- 7. 如何從剪貼板粘貼文本?
- 8. 如何使用剪切粘貼代碼片段來創建PDF文檔?
- 9. ZSH中的殺/猛(剪切/粘貼)
- 10. 將jTextPanel中的文本剪切並粘貼到剪貼板
- 11. 從剪貼板粘貼
- 12. 文件只有當複製/粘貼,如果剪切/粘貼
- 13. 從Android中的剪貼板粘貼
- 14. 在JTextArea中剪切並粘貼
- 15. 在C#中剪切,複製並粘貼?
- 16. 在vim中剪切和粘貼多行
- 17. 如何在java中複製粘貼和剪切粘貼文件或文件夾?
- 18. 用於剪切/複製/粘貼的Java剪貼板
- 19. 如何在NSOutlineView中剪切和粘貼NSTextFieldCell中的文本
- 20. 從剪貼板中粘貼文件名
- 21. 剪切和粘貼的文件:C#
- 22. 讓每複製和粘貼剪切粘貼opearation特別
- 23. 如何在剪切/複製/粘貼的HTML 5中創建api
- 24. 如何解析Excel中的「剪切n粘貼」
- 25. 從剪貼板粘貼到vim會切斷前幾行
- 26. Gtk#剪貼板複製/剪切/粘貼文件
- 27. 如何在C#中一次從剪貼板中粘貼一行?
- 28. 如何將非ASCII字符粘貼到vim中?
- 29. 粘貼字體粘貼到剪貼板
- 30. 在Eclipse中剪切,複製和粘貼GEF編輯器
無論我在哪裏粘貼 - 記事本,Word等,我都會得到相同的結果。我想也許你對PDF文件是正確的。如果我在Acrobat Pro中打開此文件,請複製其中的一些文本,然後打開粘滯便箋並嘗試粘貼文本,然後使用方框代替字符。所以即使Acrobat也無法處理這些文字。 – Steve 2012-02-04 20:15:50