2012-04-17 24 views
2

是否有人知道任何產品,庫或解決方案商業或開源或甚至可以協助解決以下問題的方法;識別來自OCR圖像的關鍵數據

我正在使用Nuance的Omnipage進行OCR處理。這很好。但我想根據各種模式以各種形式查找數據。這可能是會計憑證,但重要的是即使原始數據的類型是異構的,並且存在共同的因素,但是它們很難以基於規則的方式來定義。 我發現這部分地解決我的問題一個較早的問題(但它認爲我已經結構化的PDF格式的,我不)

有幾個共同因素 *類型的文件都差不多 *定關鍵詞要麼在我正在尋找的東西的前面或上面,但這些關鍵字可能有同義詞 *有像日期這樣的數據可能是基於國家的不同格式;例如DD/MM/YYYY,MM/DD/YYYY,YYYY-MM-DD,DD'th MMM,YYYY等(我想我們知道國家) *金額可以用小數點或小數點逗號我們知道這個國家)

回答

0

據我所知,你需要爲半結構化表單構建數據捕獲解決方案:它們都包含基本相同的一組數據,但佈局可能因文檔的來源而有所不同。沒有銀色的子彈,你需要定義一些規則,以便如何在文檔中找到正確的字段,以及可能的synonims是什麼關鍵字,關鍵字和數據本身之間的幾何關係是什麼。

但是,有一種產品可以使這個過程變得更加簡單,而且在C++中編程需要用可視化工具描述這種關係,這種工具是專門爲此設計的,並且已經內置了很多東西。

ABBYY FlexiCapture

該產品是相當強大的,streamiles文檔佈局desciptions,它的測試和數據提取自身的發展。

也有它的一個SDK版本:

ABBYY FlexiCapture Engine

聲明:我ABBYY

+0

的作品就是這種基於服務器的?我不想處理每一個案件,但想要「教」系統如何識別,因爲經常使用相同類型的文件。 – 2012-04-20 04:30:32

+0

這就是它的意義所在:你教它用於典型佈局,然後自動處理這些佈局。這並不完全不可思議 - 一旦你遇到一些新的佈局,你仍然需要技術,但這在任何情況下都是不可避免的。它也有服務器版本。 – Tomato 2012-04-20 06:34:05