我正在使用生成'.ps'文件的Postscript打印機,並且正在使用我的Linux機器中的'ps2pdf'命令將該.ps文件轉換爲.pdf。這是在這裏生成的文件,它的內容是不可選擇和可複製的。當我嘗試使用apache Tika從同一pdf文件中提取內容時,它返回一個空字符串(表示無法提取)。我認爲這可能是問題一些字體,所以我也安裝了一些新的字體,但仍然沒有爲我工作。無法使用tika從pdf文件中提取文本內容
我無法找出問題所在。無論是打印機驅動程序還是ghostscript(用於將'.ps'轉換爲'.pdf')的問題,還是字體問題-其他。
使用tika檢索內容時,它會打印一些警告(不是錯誤),如下所示。
WARN No Unicode mapping for CID+1 (1) in font WKQJKU+ArialNarrow-Identity-H
WARN No Unicode mapping for CID+2 (2) in font WKQJKU+ArialNarrow-Identity-H
WARN No Unicode mapping for CID+3 (3) in font WKQJKU+ArialNarrow-Identity-H
WARN No Unicode mapping for CID+4 (4) in font WKQJKU+ArialNarrow-Identity-H
WARN No Unicode mapping for CID+5 (5) in font WKQJKU+ArialNarrow-Identity-H
....
任何幫助預先感謝.Thanks。
您好@KenS,非常感謝您的快速響應,在我的問題'ps2pdf'是ghostscript實用程序和打印機是在linux機器上。我不知道如何上傳文件以供參考。如果您分享您的郵件ID我也可以給你發送文件。 – prasad
你不能在這裏發佈文件,最好把它放在DropBox或其他東西,並在這裏發佈的URL,然後除了我以外的人可以看。你使用的是什麼版本的Ghostscript,你從哪裏得到它(包,自己從源頭構建等)?如果你絕對必須使用電子郵件,你可以發送到垃圾郵件點網(肯定不想在這裏明顯的電子郵件地址) – KenS
嗨@KenS,我的ghostscript版本是9.16。在這裏,我分享了收件箱鏈接到postscript和pdf文件。 https://www.dropbox.com/s/jq5m4dkz175o0nk/VirtualPrinter_16_08_2016_16_09_20_865.ps?dl=0,https://www.dropbox.com/s/y8jo3whu2kw12sr/VirtualPrinter_16_08_2016_16_09_24_896.pdf?dl=0 – prasad