2012-11-29 320 views
6

我一直在使用tesseract僅用於ocr數字來實現Android OCR工具。到目前爲止,它以正常的數字字體提供相當高的準確度。但是,對於7段數字(LCD上的數字),準確度很差。Android Tesseract OCR 7 Segment Digits

我試圖裁剪我的圖像,0到9的白名單和一些圖像處理無濟於事。有關如何提高準確度的任何想法?或者,對訓練tesseract的具體7段數字的一些提示,肯定會對我有所幫助。

在此先感謝。

+0

我不認爲你可以在沒有再培訓的情況下取得好成績。如果有7段數字的公開可用的訓練數據文件,但是當我查看時我無法找到一個。 – rmtheis

+0

謝謝你的回覆。你的博客在我的實現中真的幫了我很大的忙。所以,非常感謝你。我正在計劃訓練它,並正在考慮拳擊過程的bbtesseract。我將非常感謝,如果任何人都可以分享一些培訓過程的提示,因爲官方的一個有點讓我感到困惑。 – laurie7

+0

您可以使用[jTessBoxEditor](http://vietocr.sourceforge.net/training.html)編輯或生成TIFF/box文件以用於培訓。還有一個PowerShell腳本'train.ps1',可以幫助其他培訓實現自動化。 – nguyenq

回答

2

您可以找到traineddata 7段:

https://github.com/arturaugusto/display_ocr/tree/master/letsgodigital

還有一個在同一個版本庫的樣本Python代碼。

+0

你能告訴我如何訓練tesseractor只爲數字? – malaguna

+0

我使用一種名爲「let go digital」的字體生成了一些圖像,使用gimp添加了一些噪音,使用[jTessBoxEditor](http://vietocr.sourceforge.net/training.html)生成框數據並使用[this] (https://github.com/this-is-ari/python-tesseract-3.02-training)培訓工具。閱讀[tesseractocr常見問題](https://github.com/tesseract-ocr/tesseract/wiki/FAQ)瞭解更多詳情。我也分享了[培訓資源](https://github.com/arturaugusto/display_ocr/tree/master/training_source) – art