我創建了一個使用Google的Tesseract API識別文本的基本應用程序,並將其與我的相機應用程序集成。它的工作正常,但唯一的問題是準確性,因爲有時文本被識別爲一組隨機字符,我猜準確率大約是50%。如何提高Tesseract的OCR文本的準確性?
此外,當它嘗試掃描圖像中的四個以上單詞時,應用程序崩潰。
String ocrText = baseApi.getUTF8Text();
baseApi.end();
其中baseApi
是超正方體API類的對象。
我是否需要使用不同的數據結構來保存識別的文本,或者是否有其他一些原因導致四個以上的單詞無法識別?
所有你需要的是更好的OCR引擎 – Tomato