2
我使用幾個不同的程序將PDF文件轉換爲txt文件。通常,這會導致文字很好看。有時候,事實並非如此。我有一組轉換通過以下方式文件:PDF文本轉換結果爲亂碼
文字我可以讀:您的帳戶摘要
複製,粘貼到記事本++:
Ghostscript的:似乎是一個垃圾文件。完整的xEF
,xBF
個字符。
XPDF:給我一個完整的東西,像這樣的文件:Ç+6 3 É+C ÌÍÍÌ; ÆÁÅ ÅAÁ
這似乎是複製粘貼的方法是最接近於英語,因爲它似乎每個這些字符代表一個字母字符。 SO == Y,SI == o,STX == u等
我想將這些pdf文件轉換爲英文文本。
這已被問無數次在SO。簡短的回答:你的文件不允許文本提取,而是使用OCR庫。 – yms
但是,如果複製粘貼方法實際上是某種字符表示形式,那麼我會假設我可以提取該代碼,然後將其轉換爲真實文本。我錯了嗎? –
不是真的......它們可能只是指示一組對象的索引,這些對象告訴PDF閱讀器如何繪製每個字符,而不顯示任何有關所表示文本的更多信息。請在SO中尋找關於PDF文本提取的問題,這裏有很多好的答案涵蓋了這些問題。 – yms