2016-07-06 46 views
0

當涉及到數字時,我在爲Kannada字體(Lohit Kannada和Kedage)訓練Tesseract OCR時面臨一個問題。在[lang] .traineddata文件中包含unicharambigs(Tesseract)

例如,0被識別爲8(而ನ爲ವ)。 我需要幫助包含unicharambigs文件(Github上的文檔僅描述了格式)。儘管包含unicharambigs文件,我的output.txt文件仍未更改。

假設[lang]對應於kan,下面的命令是否會在kan.traineddata文件中包含unicharambigs文件?

combine_tessdata kan.

櫃面不,我會很感激關於如何與同進行任何幫助。

回答

-1

很難回答不知道您正在使用的tesseractkan.traineddata的版本。

您可以解壓kan.traineddata以查看其中包含的kan.unicharabigs版本,然後在編輯文件後重新組合它。

看到https://github.com/tesseract-ocr/tesseract/blob/master/doc/combine_tessdata.1.asc命令語法

  • 使用-u選項來解壓:

    • -u .traineddata PATHPREFIX使用所提供的前綴拆包.traineddata
  • 使用-o選項以覆蓋ucharambigs

    • -o .traineddata FILE…:覆蓋所述.traineddata文件與設置在命令行上的那些指定的組件。

請注意:https://github.com/tesseract-ocr/langdata/blob/master/kan/kan.unicharambigs似乎是eng.unicharambigs

+0

複印可以修改https://storage.googleapis.com/google-code-attachments/tesseract-ocr/issue-801/ comment-6/kan.DangAmbigs.txt以unicharambigs格式。 請參閱https://github.com/tesseract-ocr/tesseract/wiki/TrainingTesseract#the-unicharambigs-file或unicharambigs文件的格式。 – sdk