提高掃描文檔的OCR精度

我使用標準Brother A3多功能掃描大量A3文檔，然後使用FineReader Pro對OCR進行圖像掃描。提高掃描文檔的OCR精度

但是，我在識別的字符和大量非字母數字的奇怪字符中出現了很多錯誤。

有人可以給我任何提示以編程方式提高OCR的準確性，或者對掃描圖像進行預處理，或者對識別的文本進行後期處理？編號：Find a sample pdf。它包括一些我從中得到最差結果的示例圖像。

這個問題與編程有什麼關係？ – leppie 2011-01-12 10:21:21

圖像處理IS數學/編程http://amzn.to/ef6KR4 – 2011-01-12 11:35:54

您是否有示例圖片可以發佈到某個地方，然後我們可以快速告訴您是什麼原因導致了您的大部分問題。 FineReader是更好的OCR引擎之一，所以你肯定有一些原因會導致糟糕的結果。

這可能與窮人的對比度和閾值設置，圖像歪斜，髒滾筒掃描儀，複雜的和彩色的背景，抖動背景，字體大小太小，掃描DPI過低等等

看到附加的圖像後，有一些小問題。

背景頁上有很多髒點。 FineReader似乎對你的圖像做了合理的工作。
有一些輕微的傾斜，但這不是造成和問題。
FineReader與用於列標題的BOLD高Arial字體字體混淆。
4一個很大的問題似乎是頁面底部區域的對比度差，圖像模糊。這似乎是掃描儀的問題，但可能是由於打印問題。

打印非常差，我猜這是從報紙上掃描。你的大部分錯誤都是由掃描問題引起的，所以很難以程序化方式改善結果。首先，我會嘗試使用稍高的分辨率掃描灰度圖像，看看是否有幫助。 FineReader適用於灰度圖像。如果必須有黑白圖像，請查看掃描儀驅動程序是否包含動態閾值設置並將其打開。

對於任何OCR引擎，您的圖像不是一件容易的事。如果您可以改進掃描，您將獲得更好的結果。頁面右下角有很多噪音。

您使用的是什麼版本的FineReasder？ FR10可能會比以前的版本有更好的結果。

2011-01-12 01:58:13

回答