tesseract OCR - Q檢測爲O

我正在開發應用程序以使用OpenCV和tesseract作爲OCR引擎來讀取標識徽章。我使用OpenCV編寫了一個算法，該算法處理文本檢測以便爲我的OCR引擎獲得清晰且「易於閱讀」的圖像。我下面添加一個圖像ilustrate我得到什麼：tesseract OCR - Q檢測爲O

當我問到的Tesseract「讀」的形象，我得到「KO 978」 ......在搜索這個「澳/ Q問題」與tesseract，我發現只有這個帖子https://groups.google.com/forum/#!topic/tesseract-issues/kEDIIpQ-9W4，但在這裏，似乎是對tesseract的輸入圖像沒有清楚地預處理（反應是圖像沒有糾偏）...

基於wiki部分在github上，我遵循提高質量的所有步驟（並且我認爲圖像足夠清晰），所以我不知道我還能做什麼......我不知道是否訓練OCR會有所幫助，但如果這是可能的，我想噸o避免這樣做，因爲在文檔中不建議這樣做。

我在控制檯中使用tesseract v3.03，未集成到我的應用程序中（所以tessarct會對輸入圖像進行預處理）。

任何想法如何解決這個問題？謝謝！

來源

2016-06-14 user3368457

這可能有所幫助：http://stackoverflow.com/questions/33624784/tesseract-thinks-my-1s-are-7s –

是的，我認爲也許我必須與贊助人進行逐字比較。我認爲這可能有幫助 – user3368457

您可以訓練您的語言文件以提高準確性。 This article will help you for training

當你正在爲正方體語言文件訓練你注意unicharambigs file

另一種意見認爲可以使預處理像圖像二值化/閾值。

來源

2016-06-16 11:26:59

我沒有排版，所以真的很難訓練（也許沒有解決問題）我做了所有的預處理，我有一個二進制化的非旋轉圖像。我不能做更多... – user3368457

不，你不需要排版。只需遵循培訓步驟，並專注於unicharambigs步驟。這是可選的，但它是你需要的。 –

tesseract OCR - Q檢測爲O

回答

相關問題