2013-02-20 146 views
1

我正在尋找一個編程解決方案來查找包含至少一個圖像的所有頁面(例如頁碼)。我不需要自己的圖像,我只需要頁碼。 shell腳本解決方案或python解決方案是首選,但有助於完成此任務的所有內容都可以。獲取包含圖像的PDF頁面

背景:我正在研究PDF,我需要知道在哪個頁面上運行OCR是有意義的。

回答

1

一個解決方案是使用pdfimages,該工具來自poppler-utils包。它可以輸出存儲在PDF上的圖像的一些信息:

$ pdfimages -list file.pdf 
page num type width height color comp bpc enc interp object ID 
--------------------------------------------------------------------- 
    1  0 image  200 197 rgb  3 8 jpeg no   7 0 

的頁碼是接一個(從1算起),identify(從ImageMagik包)可以告訴你所有的頁碼:

$ identify -format '%p ' file 
0 1 2 3 

從這兩個命令可以看出,頁面2,3,4不包含圖像,而頁面1不包含圖像。