2012-04-08 83 views
1

我需要創建一個工具,使用高質量的相機掃描文檔中的特定文本塊並對它們進行OCR掃描。每個文檔都匹配相同的模板,其中包含幾個填充了數據的表格。我需要從每個掃描文檔的特定單元格中提取數據。複雜文檔的OCR掃描

我需要考慮圖像的旋轉和小變形。整個工作流程應如下所示:

  1. 文檔「顯示」到相機。軟件製作文件的圖片。
  2. 軟件會產生一些小的旋轉和其他轉換(小幅剪切,縮放,旋轉,因爲手中持有文檔)。
  3. 軟件標識正在顯示正確模板文檔並從特定單元格中提取圖像。
  4. 圖像被OCR。

基本上,我不需要最終的解決方案,而是從哪裏開始尋找的一些方向。我知道如何做一個純文本OCRing,我不知道如何執行步驟2和3.

在此先感謝。

+0

您是否決定文檔佈局?你可以添加程序可能尋找的一些佔位符(如十字或類似模式)? – 2012-04-08 12:50:17

+0

不,我不能。但是,該文件通常具有白色背景,並且始終與周圍背景形成高度對比(環境永遠不會變白)。所以基本上,可以使用白色邊框來確定形狀。 – bezmax 2012-04-08 12:54:26

回答

0

基本上,純文本的OCR,特別是當涉及到非常好的掃描圖像時, - 是一個很好解決的任務。您所描述的是更進一步的 - 圖像預處理和數據採集的現場級識別。據我所知,開源引擎(甚至被認爲是其中最好的tesseract)不提供這樣的功能。

與此同時,專有的OCR引擎一直在解決您多年來描述的任務(花費巨大的人力資源),並且進展非常順利。因此,如果您計劃使用商業軟件,我建議您查看http://ocrsdk.com,它是一個帶有Web API的雲OCR SDK。它可讓您上傳圖像並將您發回的OCR數據。它已經內置了所有可能的圖像預處理算法,因此您不必擔心步驟2.至於步驟3 - 您可能想要參考其文檔中的this section。我是開發該服務前端的團隊的一員,所以我可以多說一點。希望能幫助到你!