您能否向我解釋Tesseract ocr Engine上的立方體模式和立方體數據文件有哪些以及使用它們的優點?Tesseract Ocr Engine立方體模式 - 培訓Tesseract
我如何培訓tesseract希臘有更好的結果?
您能否向我解釋Tesseract ocr Engine上的立方體模式和立方體數據文件有哪些以及使用它們的優點?Tesseract Ocr Engine立方體模式 - 培訓Tesseract
我如何培訓tesseract希臘有更好的結果?
對於那些可能仍然感興趣的人。 在Tesseract的網站上,有針對不同文件的標準訓練數據集。
https://code.google.com/p/tesseract-ocr/downloads/list?num=100&start=100
程序培訓此處描述(3.01版本)
https://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3
在多維數據集的情況下,與正方體相比另一個引擎,它消耗的資源較多,速度較慢,但給更好的結果。
數據文件 - 應該最終導致(被合併到)受訓數據文件的文件集。
有通過對正方體-OCR-extradocs項目wiki立方體引擎模式所需的各種培訓文件的解釋:
https://code.google.com/p/tesseract-ocr-extradocs/wiki/Cube
在那裏,你可以找到關於如何詳細的(但不完全)信息在Cube模式下創建必要的培訓文件。還有就可能是有用的神經網絡文件格式的一些信息:
https://code.google.com/p/tesseract-ocr-extradocs/wiki/nnFileFormat
立方模式往往會通過神經網絡,而不是適應性分類給你更好的識別結果。
我從來沒有創建過自己的Cube培訓文件,所以我不能給你更多關於如何創建這些文件的詳細信息。