PDF文本轉換結果爲亂碼

我使用幾個不同的程序將PDF文件轉換爲txt文件。通常，這會導致文字很好看。有時候，事實並非如此。我有一組轉換通過以下方式文件：PDF文本轉換結果爲亂碼

文字我可以讀：您的帳戶摘要

複製，粘貼到記事本++： copyPasteIntoNotepadPlusPlus

Ghostscript的：似乎是一個垃圾文件。完整的xEF,xBF個字符。

XPDF：給我一個完整的東西，像這樣的文件：Ç+6 3 É+C ÌÍÍÌ; ÆÁÅ ÅAÁ

這似乎是複製粘貼的方法是最接近於英語，因爲它似乎每個這些字符代表一個字母字符。 SO == Y，SI == o，STX == u等

我想將這些pdf文件轉換爲英文文本。

2013-09-10 Ben Walker

這已被問無數次在SO。簡短的回答：你的文件不允許文本提取，而是使用OCR庫。 – yms

但是，如果複製粘貼方法實際上是某種字符表示形式，那麼我會假設我可以提取該代碼，然後將其轉換爲真實文本。我錯了嗎？ –

不是真的......它們可能只是指示一組對象的索引，這些對象告訴PDF閱讀器如何繪製每個字符，而不顯示任何有關所表示文本的更多信息。請在SO中尋找關於PDF文本提取的問題，這裏有很多好的答案涵蓋了這些問題。 – yms

它通常是Unicode的符號看起來像一個

XEF，XBF

。您需要從Unicode到用戶友好字母的額外轉換。

2013-09-11 03:13:04 stanlyF

回答