我必須從紙質表格中拉出兩個預先打印的(不是手寫的)字段,以便在掃描後可以自動路由。這些字段包含批次和項目標識符,如「GG-9192」或「EPN/245G」。可靠地從掃描的文檔/圖像中提取標識字段?
我嘗試了以下軟件:
- 的Tesseract-OCR
- 楔形文字
- 佳能的imageRUNNER內置OCR
- Asprise OCR的Java API(演示)
我試過以下設置:
- 以300dpi和600dpi的分辨率掃描
- 嘗試了不同的字體,包括OCR-A和OCR-B。
在所有情況下,輸出結果幾乎遍及整個地方。我可以踢回那些我無法正確提取必要信息的文件,但我認爲它至少會佔一半。我考慮了基於數據庫中已知值的某種模糊邏輯,但有時這些標識符可能因單個字符而不同,如「123G」和「123C」。
這是一個失敗的原因嗎?也許OCR只是不夠成熟來處理這種性質的要求?你可以推薦哪些其他技術?條形碼?
編輯:包含的應用程序是用Java編寫的,所以任何有免費或便宜的基於Java的API的建議都會有所幫助。
編輯2:如果有人感興趣......沒有任何特殊的調整,Cuneiform for Linux和Canon ImageRunner效果最好,Tesserect-OCR和Asprise Java API產生最糟糕的結果......四個都不能接受除了標準文檔搜索等級OCR之外的任何內容。我開始認爲這不會奏效。
您是否嘗試過使用A2ia或者記錄格式Xtra? – Raj 2010-09-28 12:26:30