2010-10-28 93 views
3

我正在使用pdftotext開源工具將PDF轉換爲文本文件。如何將文本文件保存爲UTF-8格式,以便我可以保留文本文件中的所有重音字符。我使用下面的命令將內容提取到文本文件,但無法看到任何重音字符。如何使用pdftotext以UTF-8格式保存文本文件

pdftotext -enc UTF-8 book1.pdf book1.txt

請幫我解決這個問題。

由於提前,

回答

9

你可以使用命令可用編碼的列表:

pdftotext -listenc 

,並選擇使用-enc說法是正確的。我的這裏默認是UTF-8。即你的 「UTF-8」 是superflous

pdftotext -enc UTF-8 your.pdf 

您可能要檢查您的語言環境(LC_ALL,LANG,...)。

編輯: 我下載PDF文件: http://www.i18nguy.com/unicode/unicodeexample.pdf

,並轉換它在Windows 7 PC(德國)並且使用命令XPDF 3.02PL5上:

pdftotext.exe -enc UTF-8 unicodeexample.pdf 

文本文件肯定是UTF-8編碼,因爲所有字符都正確顯示。你在用什麼文本文件?如果您通過Web應用程序顯示它,則您的內容編碼可能完全錯誤,而文本文件已按照您的要求進行了轉換。

使用瀏覽器(強制將Firefox中的編碼強制爲ISO-8859-1和UTF-8)或使用十六進制編輯器進行仔細檢查。

+0

感謝您的回覆。我無法使用pdftotext -listenc獲取編碼列表。我也在使用你指定的命令,但對我仍然沒有用處。您能否寄給我您的郵件地址,以便我可以將您的PDF轉發給您測試?再次感謝。 – Amar 2010-10-28 05:42:57

+0

我正在使用版本3.02的pdftotext – Amar 2010-10-28 05:44:11

+1

你在哪個平臺上運行這個平臺?某種類型的Unix/Linux或Windows? 從版本號判斷,它看起來像是使用了過時的(原始的)XPDF版本。與此同時,大多數Linux發行版都轉換爲Poppler。我說:「pdftotext版本0.14.4」,來自Poppler(2010年發佈的版本)。 – icanhasserver 2010-10-28 06:30:14

-4

事情變得有點混亂,所以我添加了另一個答案。

我把PDF除了和我最好的猜測是使用「問題」的字體:

  • 在Acrobar Reader中打開PDF文件
  • 選擇頁面
  • 上的所有文本複製並粘貼到一個統一的文本編輯器(有沒有「隱藏」 OCR,所以你複製實際數據)

你會看到,你最終的編碼點是不是那些你在PDF中看到了阿德。無論字體是什麼,它的映射可能都不同於Unicode標準中定義的映射。因此,你的內容是「前」,你可以做的不多。

相關問題