1
我使用ghostscript 8.71從PDF頁面提取文本。Ghostscript不從PDF文件中提取所有文本
我使用的命令是:
gswin32c -q -sFONTPATH=c:\\fonts -dNODISPLAY -dSAFER -dDELAYBIND \
-dWRITESYSTEMDICT -dSIMPLE -fps2ascii.ps -dFirstPage=1 \
-dLastPage=1 input.pdf -dQUIET
,我使用<stdout>
指導文本到另一個文件。
但問題是一些可搜索的文本項目不是由Ghostscript提取的。
某些字體文本未被提取,例如:粗體字的Verdana。但Ghostscript正在打開字體文件。
我可以上傳PDF文件,但在這裏我沒有找到任何上傳選項。如果有任何選項可用,請告訴我。
感謝您的回答。 我只需要使用GhostScript進行文本提取。我已將c:\ windows \ fonts中的所有字體複製到c:\ fonts,其中還包含ghost腳本type1字體。 – anil 2010-09-02 12:50:56
告訴我任何選項來上傳我的PDF文件。 等待您的回覆。 – anil 2010-09-02 12:52:08
互聯網上有免費上傳服務,只是谷歌爲他們。 此外,你應該*仍然至少從我命名的同一個包中嘗試'pdftotext'(以及'pdffonts'和'pdfinfo') - 只是爲了收集更多關於問題根的數據點,所以我們可能會更好知道如何讓它與Ghostscript一起工作 – 2010-09-02 15:04:02