2016-06-14 77 views
1

我正在開發應用程序以使用OpenCV和tesseract作爲OCR引擎來讀取標識徽章。我使用OpenCV編寫了一個算法,該算法處理文本檢測以便爲我的OCR引擎獲得清晰且「易於閱讀」的圖像。我下面添加一個圖像ilustrate我得到什麼:tesseract OCR - Q檢測爲O

enter image description here

當我問到的Tesseract「讀」的形象,我得到「KO 978」 ......在搜索這個「澳/ Q問題」與tesseract,我發現只有這個帖子https://groups.google.com/forum/#!topic/tesseract-issues/kEDIIpQ-9W4,但在這裏,似乎是對tesseract的輸入圖像沒有清楚地預處理(反應是圖像沒有糾偏)...

基於wiki部分在github上,我遵循提高質量的所有步驟(並且我認爲圖像足夠清晰),所以我不知道我還能做什麼......我不知道是否訓練OCR會有所幫助,但如果這是可能的,我想噸o避免這樣做,因爲在文檔中不建議這樣做。

我在控制檯中使用tesseract v3.03,未集成到我的應用程序中(所以tessarct會對輸入圖像進行預處理)。

任何想法如何解決這個問題?謝謝!

+1

這可能有所幫助:http://stackoverflow.com/questions/33624784/tesseract-thinks-my-1s-are-7s –

+0

是的,我認爲也許我必須與贊助人進行逐字比較。我認爲這可能有幫助 – user3368457

回答

0

您可以訓練您的語言文件以提高準確性。 This article will help you for training

當你正在爲正方體語言文件訓練你注意unicharambigs file

另一種意見認爲可以使預處理像圖像二值化/閾值。

+0

我沒有排版,所以真的很難訓練(也許沒有解決問題) 我做了所有的預處理,我有一個二進制化的非旋轉圖像。我不能做更多... – user3368457

+0

不,你不需要排版。只需遵循培訓步驟,並專注於unicharambigs步驟。這是可選的,但它是你需要的。 –