0
如何讓Tess4J從PDF文件中獲取圖像?Make Tess4J從PDF文件中獲取圖像
我開始使用OCR(Tess4J)將轉換圖像文件轉換爲文本。它工作正常,我已經在圖像上測試過,它很棒。
File imageFile = new File("D:\\HEAD2.png");
Tesseract instance = Tesseract.getInstance(); // JNA Interface Mapping
// Tesseract1 instance = new Tesseract1(); // JNA Direct Mapping
try {
String result = instance.doOCR(imageFile);
System.out.println(result);
} catch (TesseractException e) {
System.err.println(e.getMessage());
}
但是我正面臨着這個問題。我會解析一個包含圖像的pdf文件。我不叩頭怎麼做,我還沒有發現有
我測試了Asprise這個例子PDF任何爲例Tess4J,但我沒有找到Tess4J
import com.asprise.util.pdf.PDFReader;
import com.asprise.util.ocr.OCR;
PDFReader reader = new PDFReader(new File("my.pdf"));
reader.open(); // open the file.
int pages = reader.getNumberOfPages();
for(int i=0; i < pages; i++) {
BufferedImage img = reader.getPageAsImage(i);
// recognizes both characters and barcodes
String text = new OCR().recognizeAll(image);
System.out.println("Page " + i + ": " + text);
}
reader.close(); // finally, close the file.
非常感謝 –
此代碼實際上很好,但在我的目錄中創建PDF文件圖像的位置.is必需 –
也許它會將圖像保存到磁盤,以便爲具有多個頁面的大型PDF保存一些內存。我目前不知道如何規避這一點。但是你可以在之後刪除這些.pdf。 – sschrass