2012-05-29 116 views
1

我需要一個實用程序批量轉換TIFF文件爲可轉位PDF。該軟件需要在Linux上運行,並且必須從命令行運行。該軟件不需要是開源的。我已經嘗試使用tesseract和hocr2pdf進行轉換,但是它們會生成帶有亂碼文本的PDF(注意:如果您在PDF中選擇所有文本,文本只會顯示爲亂碼)。我發現了其他實用程序,但它們只能在Windows下運行,或者不能從命令行運行。提前致謝。命令行軟件批量轉換TIFF爲可轉位PDF

+0

也許[這](http://www.moreno.marzolla.name/software/scan_to_pdf/)可以幫助 –

+0

作爲我在我的問題中注意到,我已經編寫了一個使用tesseract和hocr2pdf進行轉換的程序。據我所知,hocr2pdf是能夠製作可轉位PDF文檔的唯一開源工具。你的鏈接沒有概述任何我不知道的東西,對不起。 –

+0

這裏有兩個問題 - 完成OCR,然後轉換爲PDF。我想知道,如果您首先查看OCR TIFF到純文本,然後您可以使用類似'wkhtmltopdf'的東西將其轉換爲PDF後,該問題是否更容易搜索? – halfer

回答

0

嘗試過幾種工具(包括Abbyy)後,我決定:Vividata。他們有合適的價格,在Linux下運行,並且每年沒有頁面限制。

1

Mogrify應該能夠幫助你:

http://linux.die.net/man/1/mogrify

+0

我看不到一個選項可以將轉換後的圖像編入索引。你能提供一個樣例用法嗎? –

0

這個答案是傾斜的,只有部分。如果它不適用於你,則不予理會。

可能存在這樣的軟件,但我不熟悉它。如果您的需求足夠強大,以至於您可以編寫2000行代碼以滿足它,那麼面向Linux的Libpoppler,可以爲您提供編寫程序的界面,以製作自己的自定義PDF,完全按照您的需要它。不幸的是,Libpoppler雖然有價值,但編碼起來並不令人愉快;不幸的是,如果你對它進行編碼,那麼你可能會發現自己正在閱讀很長的一段文字the PDF standard.

如果你確實寫了這樣的軟件,你可以考慮將它作爲開源發佈。

祝你好運。

1

這exactlyu你在找什麼:基於最佳距離ABBYY的OCR市場爲Linux

http://ocr4linux.com/en:start

命令行工具OCR。 (免責聲明:我爲ABBYY工作)

+1

謝謝,但我試圖購買這個軟件,我的經驗是可怕的。銷售人員花了幾天的時間甚至做出迴應,我被引用了網站上列出的兩次。顯然,他們對歐洲和美國的人們有不同的定價。 –

+0

你爲什麼不在網上購物?銷售不經常處理這個產品,有時候會有混亂 – Tomato

0

我寫了一個使用Tesseract 3或Abbyy OCR 11的bash腳本。 它可以批量轉換或在目錄監視器模式下運行。

在你的情況

pmocr.sh --batch --target=PDF /path/to/tiff/files 

在這裏看到的腳本: https://github.com/deajan/pmOCR