我必須從視頻流中的圖像中識別數字,有幾個事情,應該讓識別更容易:
1)它是固定的字體6×8,所有符號的寬度相等
2)我知道的確切位置數字,它們總是矩形的,不是旋轉/平方/縮放的,但由於空氣傳輸毛刺可能會有一些失真。
3)只有數字和。
4)數字的背景是黑色的半(50%不透明)我應該如何使用等寬數字識別?
我試過的Tesseract v2和v3,但.NET包裝並不完美,識別錯誤是非常大的,即使我用自定義字體的培訓,據我所知,這是因爲小分辨率。
我已經做出了非常簡單的算法,通過將圖像轉換爲黑白圖像和計算原始字體圖像與來自流的圖像之間的匹配像素,它比tesseract執行得更好,但我狡猾更復雜的算法會做得更好。
我試着用BackPropagationLearning使用ActivationNetwork來訓練AForge,並且它沒有收斂(本文的第一部分,只要我不需要縮放和幾個字體http://www.codeproject.com/Articles/11285/Neural-Network-OCR,正如我所理解的,文章中的代碼是針對舊版本的AForge),不好的一面是,這個項目不再支持,論壇關閉,谷歌組也是我理解的。
我知道有.NET的OpenCV端口,據我所知,它具有不同於AForge的網絡方法,所以questiton是最適合的方法。
那麼有沒有.NET框架可以幫助我,如果它支持多個神經網絡實現,哪種實現最適合?
Tesseract嘗試的一件事是如果您的圖片來自300dpi掃描的圖書圖片,則將圖片升級爲您將獲得的圖片。我能夠通過將這些寬度擴大到100像素的寬度來獲得Tesseract的12像素寬度 –