我的建議是:使用Ghostscript命令行。因爲ImageMagick無論如何都使用Ghostscript,所以在後臺(技術IM術語是這樣的:Ghostscript是一些轉換的「代表」,例如PDF-> TIFF)。
下面是應該多頁PDF文件的信紙大小的頁面工作做好的命令行:
gswin32c.exe^
-o page_%03d.tif^
-sDEVICE=tiffg4^
-r720x720^
-g6120x7920^
input.pdf
的-g...
參數控制使用「設備點」絕對寬+高輸出頁面...(並且在720dpi時6120x7920這個字母大小)。
這些TIFF頁...
- ...將是黑+白,
- ...將有一個分辨率720DPI,
- ...將是G4壓縮和
- ...會比從IM命令行的非壓縮300dpi的要小得多
的-depth 8
你的IM參數不適合給好的結果來自p.o.v.之後的OCR,因爲它會在字母周圍產生灰色的陰影,這對此沒有幫助。
您的OCR結果現在應該比以前好多了。
如果您的OCR無法處理TIFF G4格式(我懷疑),那麼您可以藉助Ghostscript生成其他TIFF子格式。例如:
gswin32c.exe^
-o page_%03d.tif^
-sDEVICE=tiffgray^
-r720x720^
-g6120x7920^
-sCompression=lzw^
input.pdf
。
gswin32c.exe^
-o page_%03d.tif^
-sDEVICE=tiff24nc^
-r720x720^
-g6120x7920^
-sCompression=lzw^
input.pdf
tiffgray
設備創建8位灰度輸出。 tiff24nc
設備創建8位RGB顏色輸出。兩種類型的TIFF當然都會大於tiffg4
輸出。
其實Adobe的一個更糟糕的是,因爲它不是反鋸齒,並期待更多的像素化。 – 2011-05-14 14:06:20
對於人類來說 - 是的。 但對於Tesseract Adobe版本是最好的。 – clumpter 2011-05-14 15:47:10
爲什麼要將雙層圖像轉換爲8位灰色(-depth 8)?如果您只需要將格式從PDF更改爲TIFF而不更改圖像數據,請將位深度保留爲原始值。 – BitBank 2011-05-14 16:26:32