如何訓練tesseract以識別低DPI中的小數字？

我從視頻中獲取數據，因此無法重新掃描圖像，但如果需要，我可以對其進行縮放。如何訓練tesseract以識別低DPI中的小數字？

我確實只有有限的字符數1234567890:，但我無法控制原始圖像或字體的dpi。

我試圖訓練tesseract但沒有任何可見的效果，測試項目位於https://github.com/ssbarnea/tesseract-sample，但目前的結果非常糟糕。原始圖像的

實施例被捕獲：後處理圖像的

enter image description here

示例OCR：

enter image description here

如何改善在這種情況下，OCR處理？

2011-11-24 sorin

您可以嘗試在圖像的邊緣添加一些額外的空間，有時它有助於tesseract。但是，開源OCR引擎對源圖像DPI非常敏感。

2011-11-25 10:03:44 Nikolay

謝謝，Nokolai。事實上，我正在嘗試tesseract，因爲目前我們正在使用基於Abbyy的第三方解決方案，但他們不提供培訓，在這種情況下，培訓將是強制性的，以獲得良好的結果 - 對於我需要的計數器100％的準確性，考慮到只有11個可能的字符，這應該是可能的。 – sorin

我剛剛嘗試在ABBYY FineReader 10中對您的圖像進行OCR處理，並且其工作準確率達到100％。也許這個第三方解決方案基於舊版本的ABBYY產品？你能告訴我你使用的是什麼？ – Nikolay

是的，它在90％的情況下工作，手動修復輸出我可以達到98％的準確度。我仍然需要100％的解決方案。 – sorin

回答