1
我試圖在保留ocr質量的同時優化圖像掃描pdf的質量/文件大小。import/embed xml ocr/text info from one pdf to a different pdf
我可以在高質量的pdf文檔的ocr後嘗試和下采樣,但我使用的工具(以acrobat爲主)不會創建小文件大小,與使用photoshop和導出較低dpi /優化的頁面並使用這些相比頁面創建PDF。
如果可能的話,一個更好的解決方案是拍攝一張已經發生過的圖像pdf文檔(當前情況爲800M),並將ocr圖層應用於較低的rez下采樣文檔。
我可以用pdfminer成功提取座標爲xml的OCR信息,但是我想將其應用於使用photoshop進行縮減採樣的相同文件。我以爲我讀過這可能與pdftk,但我不能再找到這些信息。
任何建議將不勝感激。
插孔