1
我正在尋找一個編程解決方案來查找包含至少一個圖像的所有頁面(例如頁碼)。我不需要自己的圖像,我只需要頁碼。 shell腳本解決方案或python解決方案是首選,但有助於完成此任務的所有內容都可以。獲取包含圖像的PDF頁面
背景:我正在研究PDF,我需要知道在哪個頁面上運行OCR是有意義的。
我正在尋找一個編程解決方案來查找包含至少一個圖像的所有頁面(例如頁碼)。我不需要自己的圖像,我只需要頁碼。 shell腳本解決方案或python解決方案是首選,但有助於完成此任務的所有內容都可以。獲取包含圖像的PDF頁面
背景:我正在研究PDF,我需要知道在哪個頁面上運行OCR是有意義的。
一個解決方案是使用pdfimages
,該工具來自poppler-utils
包。它可以輸出存儲在PDF上的圖像的一些信息:
$ pdfimages -list file.pdf
page num type width height color comp bpc enc interp object ID
---------------------------------------------------------------------
1 0 image 200 197 rgb 3 8 jpeg no 7 0
的頁碼是接一個(從1算起),identify
(從ImageMagik
包)可以告訴你所有的頁碼:
$ identify -format '%p ' file
0 1 2 3
從這兩個命令可以看出,頁面2,3,4不包含圖像,而頁面1不包含圖像。