在[lang] .traineddata文件中包含unicharambigs（Tesseract）

當涉及到數字時，我在爲Kannada字體（Lohit Kannada和Kedage）訓練Tesseract OCR時面臨一個問題。在[lang] .traineddata文件中包含unicharambigs（Tesseract）

例如，0被識別爲8（而ನ爲ವ）。我需要幫助包含unicharambigs文件（Github上的文檔僅描述了格式）。儘管包含unicharambigs文件，我的output.txt文件仍未更改。

假設[lang]對應於kan，下面的命令是否會在kan.traineddata文件中包含unicharambigs文件？

combine_tessdata kan.

櫃面不，我會很感激關於如何與同進行任何幫助。

來源

2016-07-06 Sukriti

-1

很難回答不知道您正在使用的tesseract和kan.traineddata的版本。

您可以解壓kan.traineddata以查看其中包含的kan.unicharabigs版本，然後在編輯文件後重新組合它。

看到https://github.com/tesseract-ocr/tesseract/blob/master/doc/combine_tessdata.1.asc命令語法

使用-u選項來解壓：
- -u .traineddata PATHPREFIX使用所提供的前綴拆包.traineddata。
使用-o選項以覆蓋ucharambigs：
- -o .traineddata FILE…：覆蓋所述.traineddata文件與設置在命令行上的那些指定的組件。

請注意：https://github.com/tesseract-ocr/langdata/blob/master/kan/kan.unicharambigs似乎是eng.unicharambigs

來源

2016-09-01 05:18:53 sdk

複印可以修改https://storage.googleapis.com/google-code-attachments/tesseract-ocr/issue-801/ comment-6/kan.DangAmbigs.txt以unicharambigs格式。請參閱https://github.com/tesseract-ocr/tesseract/wiki/TrainingTesseract#the-unicharambigs-file或unicharambigs文件的格式。 – sdk

在[lang] .traineddata文件中包含unicharambigs（Tesseract）

回答

相關問題