我的問題是,我有一堆的PDF文件,我想將它們轉換爲文本文件。其中一些是純粹的PDF,而其他的則是掃描頁面。我在Python中編寫程序,所以我使用pdftotext將它們轉換爲TXT。從掃描的pdf文本提取
我使用下面
filename = glob.glob(src) //src is my directory with my files
for file in filename:
subprocess.call(["pdftotext", file])
命令我想什麼要問的是,如果有一種方式轉換前檢查掃描的頁面,這樣我可以使用ghostscript的命令與pdftotext操縱它們。 現在我有一個treshold來檢查.txt文件的大小,如果它低於treshold,我使用ghostscript命令來操縱它們。
問題是,即使使用pdftotext從90頁中掃描出50或60個大文件,文件的大小始終高於閾值。