爲Tesseract OCR創建培訓圖像

我正在爲Tesseract OCR編寫圖像培訓生成器。爲Tesseract OCR創建培訓圖像

當生成訓練圖像爲正方體OCR新的字體，什麼是最好的值：

2012-11-16 sashoalm

嘗試字型12分和300 dpi的 –

我找到了第四個問題的答案 - 「邊界框應該貼合」。

似乎儘可能地適合矩形給出更好的結果。

對於其他12點和300 dpi將足夠好，如@雅羅斯拉夫建議。我認爲抗鋸齒更好地關閉。

2012-11-21 15:12:44 sashoalm

第二個問題不知何故在這裏回答：http://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3#Generate_Training_Images 沒有必要使用多種尺寸來訓練。 10分會做。（這是一個很小的例外，如果要識別x高度小於15像素的文本，則應該專門進行訓練或在嘗試識別它們之前縮放圖像。）

問題1和3：根據經驗，我已成功使用300 dpi圖像/非反鋸齒字體。更具體而言，我已經使用在訓練PDF，其產生令人滿意的圖像以下轉換參數：

convert -density 300 -depth 8 [input].pdf -background white -flatten +matte -compress none -monochrome [output].tif

但是，我試圖虛線字體添加到超正方體，當我使用了150只檢測到字符正確dpi圖像。所以，我不認爲有一個通用的解決方案，它取決於你試圖添加的字體的種類。

2013-05-09 22:24:52

-1

這是很好的工具，因爲有許多優點

在信邊界框可以通過GUI編輯基於接口
自動創建所有需要的文件
自動將freq-dawg，word-dawg，用戶詞（可以是空文件），Inttemp，Normproto，Pffmtable，Unicharset，DangAmbigs（可以是空文件），shapetable e eng.traineddata文件。
新的訓練數據可以與現有的Tesseract文件中使用end.traineddata

2016-09-05 10:06:09

回答