從掃描的pdf文本提取

我的問題是，我有一堆的PDF文件，我想將它們轉換爲文本文件。其中一些是純粹的PDF，而其他的則是掃描頁面。我在Python中編寫程序，所以我使用pdftotext將它們轉換爲TXT。從掃描的pdf文本提取

我使用下面

filename = glob.glob(src) //src is my directory with my files 
    for file in filename: 
     subprocess.call(["pdftotext", file])

命令我想什麼要問的是，如果有一種方式轉換前檢查掃描的頁面，這樣我可以使用ghostscript的命令與pdftotext操縱它們。現在我有一個treshold來檢查.txt文件的大小，如果它低於treshold，我使用ghostscript命令來操縱它們。

問題是，即使使用pdftotext從90頁中掃描出50或60個大文件，文件的大小始終高於閾值。

2015-03-13 bettas

一個「純粹」的PDF文件可以在圖片吧....

有沒有簡單的方法來告訴一個PDF文件是否是一個掃描頁面或沒有。我認爲最好的辦法是分析頁面內容流，看它們是否只包含圖像（一些掃描儀將單個掃描頁面分解成多個圖像）。你可以假設它們是掃描頁面，無論如何你都不會從Ghostscript中得到任何文本。

另一種方法是對Ghostscript使用pdf_info.ps程序並讓它列出字體使用。沒有字體==沒有文字，但可能有字體存在，但仍然沒有文字。此外，我不認爲這是一頁接一頁地工作。

2015-03-13 11:29:20 KenS

回答