2017-04-02 38 views
1

我工作的一個項目,需要字符識別作爲它的一部分。我正在使用IAM的手寫數據集,因此所有圖像或多或少都會在相同的條件下拍攝。我使用的是已被數據集提供單詞的圖片,按照以下步驟的Tesseract OCR不承認任何字符

  • 二值化和閾值​​
  • 劃分的話進入到人物構成它
  • 重新調整所提取的字符
  • 讓正方體圖出什麼英文字母是

我想要實現的是將一個人的文檔的字符存儲在按字母和mayb分類的文件夾中然後再從他們那裏形成一個模板。爲此,我需要知道它是哪個角色。
這是我得到的結果 -
enter image description here

所有的人物都正確分段(在大多數情況下)。這更像是一個tesseract問題,而不是python問題,但我使用python編寫腳本並通過pytesseract包裝器調用tesseract。
我使用OpenCV來操縱圖像。這些字母矩陣的圖像作爲輸入發送到tesseract(由pytesseract處理)。投入不是問題,我向你保證。還有什麼我需要做tesseract工作?

這些人物都沒有被承認。

+0

您正在使用什麼版本的Tesseract?你是從cmd還是從你的代碼使用它?什麼是參數? –

+0

你傳遞給Tesseract的字母有多高像素? –

+0

@DmitriiZ。版本4.0。是的,我從代碼中使用它。代碼調用命令'tesseract input output'並返回輸出。 – Zeokav

回答