2011-11-24 104 views
3

我從視頻中獲取數據,因此無法重新掃描圖像,但如果需要,我可以對其進行縮放。如何訓練tesseract以識別低DPI中的小數字?

我確實只有有限的字符數1234567890:,但我無法控制原始圖像或字體的dpi。

我試圖訓練tesseract但沒有任何可見的效果,測試項目位於https://github.com/ssbarnea/tesseract-sample,但目前的結果非常糟糕。原始圖像的

實施例被捕獲:後處理圖像的

enter image description here

示例OCR:

enter image description here

如何改善在這種情況下,OCR處理?

回答

1

您可以嘗試在圖像的邊緣添加一些額外的空間,有時它有助於tesseract。但是,開源OCR引擎對源圖像DPI非常敏感。

+0

謝謝,Nokolai。事實上,我正在嘗試tesseract,因爲目前我們正在使用基於Abbyy的第三方解決方案,但他們不提供培訓,在這種情況下,培訓將是強制性的,以獲得良好的結果 - 對於我需要的計數器100%的準確性,考慮到只有11個可能的字符,這應該是可能的。 – sorin

+0

我剛剛嘗試在ABBYY FineReader 10中對您的圖像進行OCR處理,並且其工作準確率達到100%。也許這個第三方解決方案基於舊版本的ABBYY產品?你能告訴我你使用的是什麼? – Nikolay

+0

是的,它在90%的情況下工作,手動修復輸出我可以達到98%的準確度。我仍然需要100%的解決方案。 – sorin