2014-06-24 72 views
5

我必須分析包含英文和日文文本的圖像。當我默認運行tesseract(eng)時,一些日文字符丟失了。否則,如果我用日語(-l jpn)運行tesseract,則會丟失一些英文字符(e.p.電子郵件)。 如何運行一個識別英文和日文字符的進程。 謝謝。Tesseract:如何運行多種語言的tesseract一次

+1

希望這將有助於:https://github.com/rmtheis/tess-two/issues/28 –

+0

見https://stackoverflow.com/questions/16508796 /何燦我使用的,多語言支持上,Android的使用,正方體 – sashoalm

回答

17

由於tesseract 3.02可以爲-l參數指定多種語言。

-l lang要使用的語言。如果沒有指定,則認爲是英語。可以指定多種語言,用加號字符分隔。 Tesseract使用3個字符的ISO 639-2語言代碼。

一個例子:

tesseract myscan.png out -l deu+eng