2012-11-16 177 views
6

我正在爲Tesseract OCR編寫圖像培訓生成器。爲Tesseract OCR創建培訓圖像

當生成訓練圖像爲正方體OCR新的字體,什麼是最好的值:

  1. 的DPI
  2. 在點的字體大小
  3. 應的字體是反鋸齒或不
  4. 如若邊框緊貼:enter image description here,或不:enter image description here
+0

嘗試字型12分和300 dpi的 –

回答

1

我找到了第四個問題的答案 - 「邊界框應該貼合」。

似乎儘可能地適合矩形給出更好的結果。

對於其他12點和300 dpi將足夠好,如@雅羅斯拉夫建議。我認爲抗鋸齒更好地關閉。

2

第二個問題不知何故在這裏回答:http://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3#Generate_Training_Images 沒有必要使用多種尺寸來訓練。 10分會做。 (這是一個很小的例外,如果要識別x高度小於15像素的文本,則應該專門進行訓練或在嘗試識別它們之前縮放圖像。)

問題1和3:根據經驗,我已成功使用300 dpi圖像/非反鋸齒字體。更具體而言,我已經使用在訓練PDF,其產生令人滿意的圖像以下轉換參數:

convert -density 300 -depth 8 [input].pdf -background white -flatten +matte -compress none -monochrome [output].tif 

但是,我試圖虛線字體添加到超正方體,當我使用了150只檢測到字符正確dpi圖像。所以,我不認爲有一個通用的解決方案,它取決於你試圖添加的字體的種類。

-1

爲正方體訓練好工具http://vietocr.sourceforge.net/training.html

這是很好的工具,因爲有許多優點

  1. 在信邊界框可以通過GUI編輯基於接口
  2. 自動創建所有需要的文件
  3. 自動將freq-dawg,word-dawg,用戶詞(可以是空文件),Inttemp,Normproto,Pffmtable,Unicharset,DangAmbigs(可以是空文件),shapetable e eng.traineddata文件。
  4. 新的訓練數據可以與現有的Tesseract文件中使用end.traineddata