2013-05-16 68 views
0

如何讓Tess4J從PDF文件中獲取圖像?Make Tess4J從PDF文件中獲取圖像

我開始使用OCR(Tess4J)將轉換圖像文件轉換爲文本。它工作正常,我已經在圖像上測試過,它很棒。

File imageFile = new File("D:\\HEAD2.png"); 
Tesseract instance = Tesseract.getInstance(); // JNA Interface Mapping 
// Tesseract1 instance = new Tesseract1(); // JNA Direct Mapping 

try { 
    String result = instance.doOCR(imageFile); 
    System.out.println(result); 
} catch (TesseractException e) { 
    System.err.println(e.getMessage()); 
} 

但是我正面臨着這個問題。我會解析一個包含圖像的pdf文件。我不叩頭怎麼做,我還沒有發現有

我測試了Asprise這個例子PDF任何爲例Tess4J,但我沒有找到Tess4J

import com.asprise.util.pdf.PDFReader; 
import com.asprise.util.ocr.OCR; 

PDFReader reader = new PDFReader(new File("my.pdf")); 
reader.open(); // open the file. 
int pages = reader.getNumberOfPages(); 

for(int i=0; i < pages; i++) { 
    BufferedImage img = reader.getPageAsImage(i); 

    // recognizes both characters and barcodes 
    String text = new OCR().recognizeAll(image); 
    System.out.println("Page " + i + ": " + text); 
} 

reader.close(); // finally, close the file. 

回答

2

化妝使用任何像這樣的例子pdfutilities.convertpdf2png並像以前一樣使用圖像。

+0

非常感謝 –

+0

此代碼實際上很好,但在我的目錄中創建PDF文件圖像的位置.is必需 –

+0

也許它會將圖像保存到磁盤,以便爲具有多個頁面的大型PDF保存一些內存。我目前不知道如何規避這一點。但是你可以在之後刪除這些.pdf。 – sschrass