2013-07-23 84 views
1

我最近按照一些教程來設置Tesseract,現在我正在嘗試查看OCR是否正常工作。當我拍照並獲取文字時,我有時會收到非英文字符。它實際上看起來像胡言亂語。我已經發布的輸出下面我得到了一個例子:Tesseract返回非英文字符

; .'—--~_~:~ ear 
.::§—‘.::~__>‘Z~r'.‘ ,::-SES‘:3£a"3'§_「5.E.~ °?®.=_- 
.—_;%~‘=*c§u-5; H =—oc+-»o cn-5 '55:. 

我真是從研究文章的第一頁中this鏈接的圖片。我不知道爲什麼會發生這種情況。我在tessdata子目錄中也有eng.traineddata文件。

回答

1

有浮現在我的腦海裏兩件事情:

  • 火車正方體的字體,圖像中使用
  • 編輯事先
    • 灰度
    • 調整圖片大小
    • 擴張
    • 平滑
    • 高斯模糊
    • ...等等

對於編輯,我可以推薦ImageMagic