2017-08-13 110 views
0

我正在尋求建議我應該使用Tesseract的哪個版本來訓練具有獨特字母的古代語言。在特性方面,該語言與阿拉伯語非常相似。它也從右到左,一些字母可以連接在單詞中。換句話說,一封信可能有三種形狀,取決於它是在開始,中間還是結束。它也有harakat(short vowel marks),出現在字母上方或下方。哪個版本的Tesseract用於培訓新語言?

我問的原因是因爲我想利用版本3.X的可用工具,但this warning關於阿拉伯語扔我離開,因爲這種語言是非常相似。

對於任何熟悉Tesseract的人,您推薦使用哪種版本來訓練這種語言?另外,如果您知道更好的工具,請分享它。

回答

1

如果你有大量的文件需要OCR,建議使用Tesseract 4.0,因爲它的速度更快。如果您以前沒有閱讀過這些內容,您可以參考以下內容獲取更多信息。

  1. Tesseract 4.0 Accuracy and Performance
  2. Tesseract 4.0 with LSTM
  3. Training Tesseract 4.0
  4. Language Data File for 4.0,你可能有一個測試,看看是否Arbic OCR在OCR引擎模式1工作正常(即--oem 1),這是神經網僅LSTM。

Tesseract 4.0.0 alpha自去年11月/ 12月以來已經發布。

希望得到這個幫助。