2010-09-01 62 views
1

我使用ghostscript 8.71從PDF頁面提取文本。Ghostscript不從PDF文件中提取所有文本

我使用的命令是:

gswin32c -q -sFONTPATH=c:\\fonts -dNODISPLAY -dSAFER -dDELAYBIND \ 
     -dWRITESYSTEMDICT -dSIMPLE -fps2ascii.ps -dFirstPage=1 \ 
     -dLastPage=1 input.pdf -dQUIET 

,我使用<stdout>指導文本到另一個文件。

但問題是一些可搜索的文本項目不是由Ghostscript提取的。

某些字體文本未被提取,例如:粗體字的Verdana。但Ghostscript正在打開字體文件。

我可以上傳PDF文件,但在這裏我沒有找到任何上傳選項。如果有任何選項可用,請告訴我。

回答

0

您是否還嘗試了其他命令行工具來提取文本,如pdftotext from the XPDF package?這些如何比較?

您能否提供更多關於輸出中缺少什麼的細節?只是某些類型的字符,只是某些字體,只是某些頁面?此外,您正在將Linux/Unix語法("gs")與Windows語法("c:\fonts")混合使用。在Windows系統中,其中的字體通常被託管的默認位置是C:\的Windows \字體 ...

哦,是的:有你的問題的PDF文件看肯定會有所幫助。

+0

感謝您的回答。 我只需要使用GhostScript進行文本提取。我已將c:\ windows \ fonts中的所有字體複製到c:\ fonts,其中還包含ghost腳本type1字體。 – anil 2010-09-02 12:50:56

+0

告訴我任何選項來上傳我的PDF文件。 等待您的回覆。 – anil 2010-09-02 12:52:08

+0

互聯網上有免費上傳服務,只是谷歌爲他們。 此外,你應該*仍然至少從我命名的同一個包中嘗試'pdftotext'(以及'pdffonts'和'pdfinfo') - 只是爲了收集更多關於問題根的數據點,所以我們可能會更好知道如何讓它與Ghostscript一起工作 – 2010-09-02 15:04:02