我正在開發應用程序以使用OpenCV和tesseract作爲OCR引擎來讀取標識徽章。我使用OpenCV編寫了一個算法,該算法處理文本檢測以便爲我的OCR引擎獲得清晰且「易於閱讀」的圖像。我下面添加一個圖像ilustrate我得到什麼:tesseract OCR - Q檢測爲O
當我問到的Tesseract「讀」的形象,我得到「KO 978」 ......在搜索這個「澳/ Q問題」與tesseract,我發現只有這個帖子https://groups.google.com/forum/#!topic/tesseract-issues/kEDIIpQ-9W4,但在這裏,似乎是對tesseract的輸入圖像沒有清楚地預處理(反應是圖像沒有糾偏)...
基於wiki部分在github上,我遵循提高質量的所有步驟(並且我認爲圖像足夠清晰),所以我不知道我還能做什麼......我不知道是否訓練OCR會有所幫助,但如果這是可能的,我想噸o避免這樣做,因爲在文檔中不建議這樣做。
我在控制檯中使用tesseract v3.03,未集成到我的應用程序中(所以tessarct會對輸入圖像進行預處理)。
任何想法如何解決這個問題?謝謝!
這可能有所幫助:http://stackoverflow.com/questions/33624784/tesseract-thinks-my-1s-are-7s –
是的,我認爲也許我必須與贊助人進行逐字比較。我認爲這可能有幫助 – user3368457