2012-12-12 22 views
2

使用Kofax Capture 10(SP1,FP2),我在文檔的某些字段上設置了識別區域。這些領域一直認可我爲1。我已經嘗試過所有我能想到的設置組合,但不要抹殺場上的所有角色,都無濟於事。我已經嘗試了高級OCR和高性能OCR,不同的字符過濾器。各種事情。Kofax Capture Recognition - I vs 1

我可以嘗試自動識別此字符的哪些選項?我應該告訴製作表格的人(他們是由計算機生成的)他們需要嘗試使用不同的字體嗎?說服他們現在是考慮使用驗證的時候了?

我目前現場設置:

的Kofax先進的OCR與除了在高級對話框最大化精度沒有自定義設置。這和我到目前爲止嘗試過的任何其他方法一樣。

正在使用的字體是8 - 12磅宋體,順便說一句。

+0

其他字母似乎沒有這個相同的問題 – Matt

+0

什麼是掃描分辨率? – Lunatik

+0

我相信它是200 dpi。正在導入的PDF文件只有120 dpi,所以我不會浪費精力去嘗試從中獲得更多。 – Matt

回答

2

驗證是MUST如果涉及OCR,無論是否處理電子文檔或紙質文檔。對於紙質文件來說,這是一個更大的必要條件。

使用至少11pt Arial並將文檔呈現爲300 dpi圖像。這會給你99.9%的準確率(即每1000次錯過1個字符)。如果您的數據中的數字和字母在一個字中混合使用,尤其是1-I,0-O,6-G,則精度可能會下降。

如果您知道您沒有這種混合數據並且OCR仍然返回混合數字和字母,則可以使用識別腳本。您可以使用PostRecognition腳本事件來捕獲OCR引擎的識別結果,並使用SBL或VB.NET腳本對其進行修改。但它很大程度上取決於您處理的文檔和數據。

圖像清理對電子文檔沒有任何好處。

我會說你最好是使用驗證。至少這會將責任推給驗證操作員。

+0

我同意驗證應該可能會發生,但客戶需要「自動」,顯然不能每天都浪費資源來驗證數百個文檔。我會繼續,並將其標記爲答案,但我懷疑我們能夠讓他們這樣做,因爲我們已經開始致力於一個涉及使用KIC-ED進行XML導入的解決方案。 – Matt

+0

正如我在另一個論壇上寫的,你的客戶有不切實際的期望和技術知識。嘗試啓發他們,OCR永遠不會 - 我再說一次:永遠不要 - 在給出足夠樣本的情況下100%準確,無論您做什麼。這不是Kofax問題,這是一個技術問題:無論他們選擇哪種產品100%都無法實現。如果它不是100%,那麼你需要有人查看數據。可以通過自動驗證數據來加快速度。 另一個解決方案是XML,就像你寫的那樣可以給你更好的結果。 – Daniel

+0

我想說的是,關於從edocument識別中刪除圖像清理的建議對我來說比我從來沒有得到過的任何其他建議都更好。我在同一個客戶的另一個批次類中使用了這種技術,到目前爲止它非常棒。我很肯定他們沒有在Kofax培訓中涵蓋這些信息,或者他們是否在過渡期間忘記了這些信息。 – Matt