複雜文檔的OCR掃描

我需要創建一個工具，使用高質量的相機掃描文檔中的特定文本塊並對它們進行OCR掃描。每個文檔都匹配相同的模板，其中包含幾個填充了數據的表格。我需要從每個掃描文檔的特定單元格中提取數據。複雜文檔的OCR掃描

我需要考慮圖像的旋轉和小變形。整個工作流程應如下所示：

文檔「顯示」到相機。軟件製作文件的圖片。
軟件會產生一些小的旋轉和其他轉換（小幅剪切，縮放，旋轉，因爲手中持有文檔）。
軟件標識正在顯示正確模板文檔並從特定單元格中提取圖像。
圖像被OCR。

基本上，我不需要最終的解決方案，而是從哪裏開始尋找的一些方向。我知道如何做一個純文本OCRing，我不知道如何執行步驟2和3.

在此先感謝。

來源

2012-04-08 bezmax

您是否決定文檔佈局？你可以添加程序可能尋找的一些佔位符（如十字或類似模式）？ – 2012-04-08 12:50:17

不，我不能。但是，該文件通常具有白色背景，並且始終與周圍背景形成高度對比（環境永遠不會變白）。所以基本上，可以使用白色邊框來確定形狀。 – bezmax 2012-04-08 12:54:26

基本上，純文本的OCR，特別是當涉及到非常好的掃描圖像時， - 是一個很好解決的任務。您所描述的是更進一步的 - 圖像預處理和數據採集的現場級識別。據我所知，開源引擎（甚至被認爲是其中最好的tesseract）不提供這樣的功能。

與此同時，專有的OCR引擎一直在解決您多年來描述的任務（花費巨大的人力資源），並且進展非常順利。因此，如果您計劃使用商業軟件，我建議您查看http://ocrsdk.com，它是一個帶有Web API的雲OCR SDK。它可讓您上傳圖像並將您發回的OCR數據。它已經內置了所有可能的圖像預處理算法，因此您不必擔心步驟2.至於步驟3 - 您可能想要參考其文檔中的this section。我是開發該服務前端的團隊的一員，所以我可以多說一點。希望能幫助到你！

來源

2012-04-09 11:21:40 Nikolay

複雜文檔的OCR掃描

回答

相關問題