2012-07-15 26 views
1

我試圖在保留ocr質量的同時優化圖像掃描pdf的質量/文件大小。import/embed xml ocr/text info from one pdf to a different pdf

我可以在高質量的pdf文檔的ocr後嘗試和下采樣,但我使用的工具(以acrobat爲主)不會創建小文件大小,與使用photoshop和導出較低dpi /優化的頁面並使用這些相比頁面創建PDF。

如果可能的話,一個更好的解決方案是拍攝一張已經發生過的圖像pdf文檔(當前情況爲800M),並將ocr圖層應用於較低的rez下采樣文檔。

我可以用pdfminer成功提取座標爲xml的OCR信息,但是我想將其應用於使用photoshop進行縮減採樣的相同文件。我以爲我讀過這可能與pdftk,但我不能再找到這些信息。

任何建議將不勝感激。

插孔

回答

0

你能描述一下什麼是當前的方式創建PDF?

隨着IText有可能添加圖片set the compression level

可能有用