2013-05-16 81 views

回答

3

對於那些可能仍然感興趣的人。 在Tesseract的網站上,有針對不同文件的標準訓練數據集。

https://code.google.com/p/tesseract-ocr/downloads/list?num=100&start=100

程序培訓此處描述(3.01版本)

https://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3

在多維數據集的情況下,與正方體相比另一個引擎,它消耗的資源較多,速度較慢,但​​給更好的結果。

數據文件 - 應該最終導致(被合併到)受訓數據文件的文件集。

2

有通過對正方體-OCR-extradocs項目wiki立方體引擎模式所需的各種培訓文件的解釋:

https://code.google.com/p/tesseract-ocr-extradocs/wiki/Cube

在那裏,你可以找到關於如何詳細的(但不完全)信息在Cube模式下創建必要的培訓文件。還有就可能是有用的神經網絡文件格式的一些信息:

https://code.google.com/p/tesseract-ocr-extradocs/wiki/nnFileFormat

立方模式往往會通過神經網絡,而不是適應性分類給你更好的識別結果。

我從來沒有創建過自己的Cube培訓文件,所以我不能給你更多關於如何創建這些文件的詳細信息。