0
我對通過在C++ API中調用AllWordConfidences()
函數可以獲得的Tesseract OCR置信度值有一些疑問。Tesseract OCR的置信度值
什麼是置信值(由正方體API返回)和如何正方體計算價值?(喜歡根據什麼因素)?
有沒有可能改變tesseract的準確度?
任何人都可以幫助我解決這些問題嗎?謝謝。
我對通過在C++ API中調用AllWordConfidences()
函數可以獲得的Tesseract OCR置信度值有一些疑問。Tesseract OCR的置信度值
什麼是置信值(由正方體API返回)和如何正方體計算價值?(喜歡根據什麼因素)?
有沒有可能改變tesseract的準確度?
任何人都可以幫助我解決這些問題嗎?謝謝。
我在其他OCR軟件(特別是ANPR軟件)中使用了類似的指標。如果我沒有記錯,總體上有兩個信心因素;一個是0-> 100%置信因子,另一個是0-> X值,用作各種級聯置信因子的聚合。
這個值是任意的,所以我建議使用0-> 100%的值。還要注意每個角色都應該有一個可信度因子。
通過評估輪廓線/邊緣的清晰程度,字符中檢測到的形狀與預期形狀的接近程度以及選擇一個字符與另一個字符的決定有多接近,計算出這些指標。 IE OCR在'p'和'b'之間選擇比'Q'和'O'更容易。
「改善」這些指標的唯一方法就是訓練探測器!所以要準備好大量有效的數據。您還需要使用Tesseract培訓工具的耐心 - 我發現它們是75%的噩夢。
祝你好運!