Q

用培訓的圖像和文字教學Tessearact

2015-08-13 142 views 0 likes

0

我是新的Tesseract 用培訓的圖像和文字教學Tessearact

我正在使用Windows操作系統。我想教tesseract使用我自己的80字體的字體。沒有其他的。我讀了這樣的解釋：

https://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3

但我不能找到一個名爲「培訓」一個可執行文件。也沒有文件稱爲「text2image」，因爲它是在其他論壇寫的。

如果我在Windows上的字體是本地安裝的，我可以解釋如何獲得所需的tesseract庫，我準備好了tiff文件並準備好了培訓文本。

培訓/ text2image --text = 「C：\項目\掃描儀\ training_text.txt」 --outputbase = ocr.ocrb.exp0 --font = '宋體' --fonts_dir =「C：\的Windows \字體」

2015-08-13 Nasenbaer

+0

text2image是tesseract-ocr 3.04版本的工具。 – user898678

+0

謝謝。如何訓練當前版本的tesseract？ – Nasenbaer

+0

當前版本是3.04版本。有什麼不明確的說明https://github.com/tesseract-ocr/tesseract/wiki/TrainingTesseract？ – user898678

A

回答

0

訓練的Tesseract是使用第三方軟件，如jTessBoxEditor（http://vietocr.sourceforge.net/training.html）最簡單的方法。即使它沒有使用最新版本的tesseract，生成的文件也是兼容的。

你只需要選擇你的字體和你的訓練文本，它會生成所有需要的文件。它也可以讓你輕鬆地檢查生成的框是否正確。

2015-08-19 12:45:58 darkpotpot

+0

我發現，我需要使用https://code.google.com/export-to-github/start-export/serak-tesseract-trainer?code=73561014ed6a327d0728來訓練數據。無論如何，它會識別一些字符爲「（」即使沒有任何時間這個字符串，我的字符集沒有「（」。如何限制字符爲必要的字符？ – Nasenbaer

相關問題