2017-03-01 36 views
0

我無法完全使用node-tesseract讀取表單。只有表單的打印文本被識別並正確返回,而手寫文本則返回一些特殊字符。無法使用node-tesseract從表單讀取手寫文本

我的代碼,

var options = { 
      l: 'deu', 
      psm: 6, 
      env: { 
       maxBuffer: 4096 * 4096 
      } 
     }; 
     tesseract.process('./server/images/form.jpg', options, function (err,text) { 
      if (err) { 
       return console.log("An error occured: ", err); 
      } 
      console.log("Recognized text:"); 
      console.log(text); 
     }); 

input ------> OWNER Brian Dude output------> OW_NER ägga ])ggé;= ‘

這裏,OWNER是一些文本這裏

+0

[手寫文字的tesseract訓練(中可能的複製http://stackoverflow.com/questions/10763017/training-tesseract-for-handwritten-text ) – sashoalm

回答

0

提起你可以訓練的Tesseract識別手寫文字。 見here

0
  1. 看看下面的文章。兩者都是使用Tesseract培訓流程進行手寫識別的示例。

Tesseract Training for Handwritten Digit Recognition

Training Tesseract for Roman Font Handwriting

  • 查看官方的Tesseract培訓頁面。

  • 以下鏈接將引導您完成培訓過程,它對我有很大的幫助。 http://www.resolveradiologic.com/blog/2013/01/15/training-tesseract/

  • 使用第三方GUI進行Tesseract培訓,它會讓你的生活更輕鬆。我建議tesseract4java和jTessBoxEditor(在OS X上都工作)