2017-02-17 25 views
0

我試圖將使用西班牙文本的pdf文件轉換爲在Mac上使用ghostscript的.txt文件。除西班牙語專用字符(例如í,ó)無法正確顯示(例如í顯示爲「¿≠」)外,一切運作良好。有誰知道如何解決這一問題?當使用ghostscript將.pdf轉換爲.txt時,西班牙字符顯示不正確

這是一個工作示例。在example.pdf文件中放置以下文本:

Este planetaademásposee eldíamáslargo del sistema solar:243díasterrestres,y su movimiento esdextrógiro,es decir,gira en el sentido de las manecillas del reloj, contrario al movimiento de los otros planetas。 Por ello,en undíavenusiano el Sol sale por el oeste y se se oculta por el este。

然後運行

gs -sDEVICE=txtwrite -o output.txt example.pdf 

回答

0

的「示例」是完全不夠的,因爲你還沒有提供真正的PDF文件。如果我自己創建PDF文件,它將不會與您的文件相同。特別是它可能包含一個ToUnicode CMap,你可能不知道。

在沒有ToUnicode CMap的情況下,任何消費者都必須猜測字符代碼代表什麼(它們可能根本不代表任何語言編碼),因此您將無法獲得您期望的文本。

所以它提供一個實際的示例文件非常重要,而不是創建一個指示。

你還沒有說過你正在使用哪個版本的Ghostscript。

相關問題