如何使用pdftotext以UTF-8格式保存文本文件

我正在使用pdftotext開源工具將PDF轉換爲文本文件。如何將文本文件保存爲UTF-8格式，以便我可以保留文本文件中的所有重音字符。我使用下面的命令將內容提取到文本文件，但無法看到任何重音字符。如何使用pdftotext以UTF-8格式保存文本文件

pdftotext -enc UTF-8 book1.pdf book1.txt

請幫我解決這個問題。

由於提前，

來源

2010-10-28 Amar

你可以使用命令可用編碼的列表：

pdftotext -listenc

，並選擇使用-enc說法是正確的。我的這裏默認是UTF-8。即你的「UTF-8」是superflous

pdftotext -enc UTF-8 your.pdf

您可能要檢查您的語言環境（LC_ALL，LANG，...）。

編輯： 我下載PDF文件： http://www.i18nguy.com/unicode/unicodeexample.pdf

，並轉換它在Windows 7 PC（德國）並且使用命令XPDF 3.02PL5上：

pdftotext.exe -enc UTF-8 unicodeexample.pdf

文本文件肯定是UTF-8編碼，因爲所有字符都正確顯示。你在用什麼文本文件？如果您通過Web應用程序顯示它，則您的內容編碼可能完全錯誤，而文本文件已按照您的要求進行了轉換。

使用瀏覽器（強制將Firefox中的編碼強制爲ISO-8859-1和UTF-8）或使用十六進制編輯器進行仔細檢查。

來源

2010-10-28 05:17:06 icanhasserver

感謝您的回覆。我無法使用pdftotext -listenc獲取編碼列表。我也在使用你指定的命令，但對我仍然沒有用處。您能否寄給我您的郵件地址，以便我可以將您的PDF轉發給您測試？再次感謝。 – Amar 2010-10-28 05:42:57

我正在使用版本3.02的pdftotext – Amar 2010-10-28 05:44:11

你在哪個平臺上運行這個平臺？某種類型的Unix/Linux或Windows？從版本號判斷，它看起來像是使用了過時的（原始的）XPDF版本。與此同時，大多數Linux發行版都轉換爲Poppler。我說：「pdftotext版本0.14.4」，來自Poppler（2010年發佈的版本）。 – icanhasserver 2010-10-28 06:30:14

-4

事情變得有點混亂，所以我添加了另一個答案。

我把PDF除了和我最好的猜測是使用「問題」的字體：

在Acrobar Reader中打開PDF文件
選擇頁面
上的所有文本複製並粘貼到一個統一的文本編輯器（有沒有「隱藏」 OCR，所以你複製實際數據）

你會看到，你最終的編碼點是不是那些你在PDF中看到了阿德。無論字體是什麼，它的映射可能都不同於Unicode標準中定義的映射。因此，你的內容是「前」，你可以做的不多。

來源

2010-10-28 09:43:06 icanhasserver

如何使用pdftotext以UTF-8格式保存文本文件

回答

相關問題