我正在使用OCR輸出,並且正在搜索其中的特殊字詞。用於OCR的字距算法
由於輸出不乾淨,我根據低於特定閾值的單詞距離查找與我的輸入相匹配的元素。
但是,我覺得Levenshtein距離或漢明距離並不是最好的方式,因爲OCR總是會犯同樣的錯誤:I爲1,0,O爲O,Q爲O ......並且這些「例如,「經典」錯誤似乎不如「A for K」重要。因此,這些距離不關心字符外觀差異的大小(低/高)。
是否有任何字距離算法,專門爲OCR,我可以使用,將更好地適合我的情況?或者,我應該根據人物的視覺差異憑經驗實施我的自定義單詞距離嗎?
如果你曾經閱讀過tesseract源代碼,你會發現它特殊的處理案例很多 –
你在64位JVM上使用tesseract ocr嗎? – manu
@manu不,我使用ABBYY FineReader。 – zenbeni