可靠地從掃描的文檔/圖像中提取標識字段？

我必須從紙質表格中拉出兩個預先打印的（不是手寫的）字段，以便在掃描後可以自動路由。這些字段包含批次和項目標識符，如「GG-9192」或「EPN/245G」。可靠地從掃描的文檔/圖像中提取標識字段？

我嘗試了以下軟件：

的Tesseract-OCR
楔形文字
佳能的imageRUNNER內置OCR
Asprise OCR的Java API（演示）

我試過以下設置：

以300dpi和600dpi的分辨率掃描
嘗試了不同的字體，包括OCR-A和OCR-B。

在所有情況下，輸出結果幾乎遍及整個地方。我可以踢回那些我無法正確提取必要信息的文件，但我認爲它至少會佔一半。我考慮了基於數據庫中已知值的某種模糊邏輯，但有時這些標識符可能因單個字符而不同，如「123G」和「123C」。

這是一個失敗的原因嗎？也許OCR只是不夠成熟來處理這種性質的要求？你可以推薦哪些其他技術？條形碼？

編輯：包含的應用程序是用Java編寫的，所以任何有免費或便宜的基於Java的API的建議都會有所幫助。

編輯2：如果有人感興趣......沒有任何特殊的調整，Cuneiform for Linux和Canon ImageRunner效果最好，Tesserect-OCR和Asprise Java API產生最糟糕的結果......四個都不能接受除了標準文檔搜索等級OCR之外的任何內容。我開始認爲這不會奏效。

來源

2009-11-17 Boden

您是否嘗試過使用A2ia或者記錄格式Xtra？ – Raj 2010-09-28 12:26:30

如果你有控制字段，爲什麼首先使用人類可讀的格式？對於掃描，它看起來像一個QR碼，或類似的東西會是最好的。它被標記爲方向，並且具有一些內置的糾錯。

http://en.wikipedia.org/wiki/QR_Code

來源

2009-11-17 22:26:02

謝謝。我想我沒有完全控制。打印前輸入其中一個標識符。我不得不將一些東西弄髒，以便在文檔初始準備時生成並打印Word代碼。 – Boden 2009-11-17 23:00:04

從快速谷歌搜索，似乎已經存在一些解決方案，用於將QR碼和其他條形碼插入Word文檔。不知道費用，但QR碼是「開放」格式，所以你可以找到代碼來生成你自己的，甚至可以用一個可視化的基本腳本。 – 2009-11-18 00:33:32

我開始挖掘開始與番茄的建議產品。我試過了ABBYY和CVISION。這兩種產品都可以自動OCR：

此外，ABBYY有SDKs for various platforms，並CVISION已出現至少VB/VC++工作的SDK。

我還沒有嘗試過任何一個SDK，但我不確定它對我的項目是否有必要。我需要的只是PDF文件，可以從中提取文本。然而，我確實嘗試了CVISION的服務器產品，並且在最精確的設置下使用了OCR，它運行得非常好。我還沒有試用ABBYY的服務器產品，因爲我必須通過經銷商才能獲得試用版。我正在這樣做，但如果它開始討厭，我可能會去與CVISION。我確實嘗試了ABBYY的FineReader獨立產品，並且它運行得非常好，所以我假設他們的服務器產品也會。

來源

2009-11-25 20:34:41 Boden

可靠地從掃描的文檔/圖像中提取標識字段？

回答

相關問題