當涉及到數字時,我在爲Kannada字體(Lohit Kannada和Kedage)訓練Tesseract OCR時面臨一個問題。在[lang] .traineddata文件中包含unicharambigs(Tesseract)
例如,0被識別爲8(而ನ爲ವ)。 我需要幫助包含unicharambigs文件(Github上的文檔僅描述了格式)。儘管包含unicharambigs文件,我的output.txt文件仍未更改。
假設[lang]對應於kan,下面的命令是否會在kan.traineddata文件中包含unicharambigs文件?
combine_tessdata kan.
櫃面不,我會很感激關於如何與同進行任何幫助。
複印可以修改https://storage.googleapis.com/google-code-attachments/tesseract-ocr/issue-801/ comment-6/kan.DangAmbigs.txt以unicharambigs格式。 請參閱https://github.com/tesseract-ocr/tesseract/wiki/TrainingTesseract#the-unicharambigs-file或unicharambigs文件的格式。 – sdk