2011-01-08 35 views
2

我需要找到一個開源或基於Linux的實用程序,它允許我在設置文件中設置x,y座標。然後,我想依次打開pdf文件,並在文件中查找姓氏和帳號,然後用包含姓氏和文件號的文件名保存文件。OCR在PDF的x,y窗口中

回答

2

您可能需要閱讀一些這些答案首先:

以上的答案是不是Linux特有的。

大多數PDF文檔不需要被OCR化,因爲文本包含在PDF中。最困難的部分是提取英寸iText的Java版本(http://itextpdf.com/)可能是Linux下提取PDF文本字符串的最佳工具包。另一個選項可能是http://pdfbox.apache.org/

如果您需要提取的文本實際上是一個圖像,那麼您可能需要將整個PDF頁面轉換爲圖像格式(如TIFF),並將其傳遞到OCR引擎(如Google Tesseract OCR)。