2009-11-17 61 views
2

我必須從紙質表格中拉出兩個預先打印的(不是手寫的)字段,以便在掃描後可以自動路由。這些字段包含批次和項目標識符,如「GG-9192」或「EPN/245G」。可靠地從掃描的文檔/圖像中提取標識字段?

我嘗試了以下軟件:

  • 的Tesseract-OCR
  • 楔形文字
  • 佳能的imageRUNNER內置OCR
  • Asprise OCR的Java API(演示)

我試過以下設置:

  • 以300dpi和600dpi的分辨率掃描
  • 嘗試了不同的字體,包括OCR-A和OCR-B。

在所有情況下,輸出結果幾乎遍及整個地方。我可以踢回那些我無法正確提取必要信息的文件,但我認爲它至少會佔一半。我考慮了基於數據庫中已知值的某種模糊邏輯,但有時這些標識符可能因單個字符而不同,如「123G」和「123C」。

這是一個失敗的原因嗎?也許OCR只是不夠成熟來處理這種性質的要求?你可以推薦哪些其他技術?條形碼?

編輯:包含的應用程序是用Java編寫的,所以任何有免費或便宜的基於Java的API的建議都會有所幫助。

編輯2:如果有人感興趣......沒有任何特殊的調整,Cuneiform for Linux和Canon ImageRunner效果最好,Tesserect-OCR和Asprise Java API產生最糟糕的結果......四個都不能接受除了標準文檔搜索等級OCR之外的任何內容。我開始認爲這不會奏效。

+0

您是否嘗試過使用A2ia或者記錄格式Xtra? – Raj 2010-09-28 12:26:30

回答

2

如果你有控制字段,爲什麼首先使用人類可讀的格式?對於掃描,它看起來像一個QR碼,或類似的東西會是最好的。它被標記爲方向,並且具有一些內置的糾錯。

http://en.wikipedia.org/wiki/QR_Code

+0

謝謝。我想我沒有完全控制。打印前輸入其中一個標識符。我不得不將一些東西弄髒,以便在文檔初始準備時生成並打印Word代碼。 – Boden 2009-11-17 23:00:04

+1

從快速谷歌搜索,似乎已經存在一些解決方案,用於將QR碼和其他條形碼插入Word文檔。不知道費用,但QR碼是「開放」格式,所以你可以找到代碼來生成你自己的,甚至可以用一個可視化的基本腳本。 – 2009-11-18 00:33:32

2

我開始挖掘開始與番茄的建議產品。我試過了ABBYY和CVISION。這兩種產品都可以自動OCR:

此外,ABBYY有SDKs for various platforms,並CVISION已出現至少VB/VC++工作的SDK

我還沒有嘗試過任何一個SDK,但我不確定它對我的項目是否有必要。我需要的只是PDF文件,可以從中提取文本。然而,我確實嘗試了CVISION的服務器產品,並且在最精確的設置下使用了OCR,它運行得非常好。我還沒有試用ABBYY的服務器產品,因爲我必須通過經銷商才能獲得試用版。我正在這樣做,但如果它開始討厭,我可能會去與CVISION。我確實嘗試了ABBYY的FineReader獨立產品,並且它運行得非常好,所以我假設他們的服務器產品也會。