的Tesseract OCR不承認任何字符

我工作的一個項目，需要字符識別作爲它的一部分。我正在使用IAM的手寫數據集，因此所有圖像或多或少都會在相同的條件下拍攝。我使用的是已被數據集提供單詞的圖片，按照以下步驟的Tesseract OCR不承認任何字符

二值化和閾值
劃分的話進入到人物構成它
重新調整所提取的字符
讓正方體圖出什麼英文字母是

我想要實現的是將一個人的文檔的字符存儲在按字母和mayb分類的文件夾中然後再從他們那裏形成一個模板。爲此，我需要知道它是哪個角色。
這是我得到的結果 -

所有的人物都正確分段（在大多數情況下）。這更像是一個tesseract問題，而不是python問題，但我使用python編寫腳本並通過pytesseract包裝器調用tesseract。
我使用OpenCV來操縱圖像。這些字母矩陣的圖像作爲輸入發送到tesseract（由pytesseract處理）。投入不是問題，我向你保證。還有什麼我需要做tesseract工作？

這些人物都沒有被承認。

來源

2017-04-02 Zeokav

您正在使用什麼版本的Tesseract？你是從cmd還是從你的代碼使用它？什麼是參數？ –

你傳遞給Tesseract的字母有多高像素？ –

@DmitriiZ。版本4.0。是的，我從代碼中使用它。代碼調用命令'tesseract input output'並返回輸出。 – Zeokav

正方體doesn't support handwritten text好。您應該嘗試使用ABBYY OCR作爲替代免費庫，如Lipi Toolkit。

來源

2017-04-02 19:59:02

的Tesseract OCR不承認任何字符

回答

相關問題