我最近設置了一個Linux服務器,可以使用作爲Xpdf一部分的pdftotext
命令將基於文本的PDF轉換爲文本,並通過使用gs
( Ghostscript)和tesseract
命令。如何區分PHP中的「文本」PDF和「圖像」PDF?
當我已經知道PDF是基於文本還是基於圖像的時候,兩種解決方案都能很好地工作。但是,爲了自動化將許多PDF轉換爲文本的過程,我需要能夠判斷PDF是基於文本還是基於圖像,以便我知道在PDF上運行哪一組進程。
有沒有什麼辦法可以在PHP中分析一個PDF,並告訴它是基於文本還是基於圖像,以便我知道是否使用Xpdf或Ghostscript/Tesseract?
如果兩者兼而有之,該怎麼辦? – cmorrissey
這是否會發生,如果是這樣,將在文件上運行Xpdf的'pdftotext'就足夠了?無論哪種方式,無論是有兩種或三種不同類型的PDF,我需要能夠區分它們,以便我知道如何處理它們以獲取文本。謝謝。 – HartleySan
我會針對PDF運行這兩個腳本,然後您需要對輸出進行比較。 – cmorrissey