2017-01-09 104 views
0

我需要檢索存儲爲一系列圖像的大量舊數據。它們都具有相同的背景和文字顏色,都使用相同字體大小的Verdana。事情是這樣的:OCR預先知道字體的圖像

Example text

我已經試過在一列被計數的像素和單個字形匹配到我的前面「編碼」字形的數據庫。工作很不錯,但有兩個主要問題

1)keming - 分離字形我檢查如果我打字符之間的空間。當兩個字符重疊時這不起作用。我通過在我的數據庫中添加所有字母組合來解決這個問題。 2)別名 - 這是我最終的問題 - 單個字母可以用許多不同的方式查找,因爲別名,幾乎每個別名情況都看起來獨一無二,所以我不能建立「那些看起來像A的數據庫」,而不會完全改變我的識別代碼方法

所以:是否有一種工具可以識別處理別名的圖像上的特定字體?

我會很感激不是用正方體其他的解決辦法,這是我最後的選擇,因爲複雜性和重量

回答

1

顯然,最簡單的方法就是用好的OCR工具這一點。我把這個圖像插入OCRSDK.com的演示頁面,並且處理得很完美。 enter image description here 它是商業的,但有一些免費的承認,所以你可以玩,並決定它是否適合你。它是Web API,所以插入到您的應用程序非常容易,並且有可用的。

因此,它可能已經足夠好,沒有任何字體訓練。但是,如果精度仍然不夠,那麼你可能想看看字體訓練。但對於任何OCR引擎而言,這是一個非常複雜的過程。但是,創建自己的OCR仍然更容易。

聲明:我爲ABBYY工作