2015-03-13 151 views
0

我的問題是,我有一堆的PDF文件,我想將它們轉換爲文本文件。其中一些是純粹的PDF,而其他的則是掃描頁面。我在Python中編寫程序,所以我使用pdftotext將它們轉換爲TXT。從掃描的pdf文本提取

我使用下面

filename = glob.glob(src) //src is my directory with my files 
    for file in filename: 
     subprocess.call(["pdftotext", file]) 

命令我想什麼要問的是,如果有一種方式轉換前檢查掃描的頁面,這樣我可以使用ghostscript的命令與pdftotext操縱它們。 現在我有一個treshold來檢查.txt文件的大小,如果它低於treshold,我使用ghostscript命令來操縱它們。

問題是,即使使用pdftotext從90頁中掃描出50或60個大文件,文件的大小始終高於閾值。

回答

0

一個「純粹」的PDF文件可以在圖片吧....

有沒有簡單的方法來告訴一個PDF文件是否是一個掃描頁面或沒有。我認爲最好的辦法是分析頁面內容流,看它們是否只包含圖像(一些掃描儀將單個掃描頁面分解成多個圖像)。你可以假設它們是掃描頁面,無論如何你都不會從Ghostscript中得到任何文本。

另一種方法是對Ghostscript使用pdf_info.ps程序並讓它列出字體使用。沒有字體==沒有文字,但可能有字體存在,但仍然沒有文字。此外,我不認爲這是一頁接一頁地工作。