2015-08-13 142 views
0

我是新的Tesseract用培訓的圖像和文字教學Tessearact

我正在使用Windows操作系統。 我想教tesseract使用我自己的80字體的字體。沒有其他的。我讀了這樣的解釋:

https://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3

但我不能找到一個名爲「培訓」一個可執行文件。也沒有文件稱爲「text2image」,因爲它是在其他論壇寫的。

如果我在Windows上的字體是本地安裝的,我可以解釋如何獲得所需的tesseract庫,我準備好了tiff文件並準備好了培訓文本。

培訓/ text2image --text = 「C:\項目\掃描儀\ training_text.txt」 --outputbase = ocr.ocrb.exp0 --font = '宋體' --fonts_dir =「C:\的Windows \字體」

current tesseract directory

+0

text2image是tesseract-ocr 3.04版本的工具。 – user898678

+0

謝謝。如何訓練當前版本的tesseract? – Nasenbaer

+0

當前版本是3.04版本。有什麼不明確的說明https://github.com/tesseract-ocr/tesseract/wiki/TrainingTesseract? – user898678

回答

0

訓練的Tesseract是使用第三方軟件,如jTessBoxEditor(http://vietocr.sourceforge.net/training.html)最簡單的方法。即使它沒有使用最新版本的tesseract,生成的文件也是兼容的。

你只需要選擇你的字體和你的訓練文本,它會生成所有需要的文件。它也可以讓你輕鬆地檢查生成的框是否正確。

+0

我發現,我需要使用https://code.google.com/export-to-github/start-export/serak-tesseract-trainer?code=73561014ed6a327d0728來訓練數據。無論如何,它會識別一些字符爲「(」即使沒有任何時間這個字符串,我的字符集沒有「(」。如何限制字符爲必要的字符? – Nasenbaer