我正在構建一個預處理項目,以增強將在階段2中發生的OCR結果,但是會從兩張圖像中進行處理。從兩張圖像中選擇OCR的最佳輸入
例如我有image1和image2,我們需要檢查哪一個更適合做OCR。
性能和處理時間非常重要(實時應用程序)。
這裏有一些情況下,我需要討論一下:
案例1:
兩者都是 「F」 字母,但第一個是可讀的 「F」,在OCR這將在下一個發生,其中第二個根本不可讀,因此對於情況1,我需要選擇第一個「F」作爲OCR的輸入並忽略第二個圖像。
案例2:
兩者都是「R」字母,無一不是在OCR可讀的,但第一個是從第二個更好,因爲我們看到的,所以我需要在這裏選擇第一個「R」。
情形3:
它類似於第一種情況,其中 「N」 這裏是不是在OCR可讀的,所以我需要選擇第一項 「NA」
Case4:
在第一個「na」中,「n」和「a」沒有合併在一起,其中第二個是「輪廓」,所以第一個「na」更好地作爲OCR的輸入。
我需要建立一個通用的快速算法來檢查這部分圖像是否更好的OCR或不。
我試過如下:
1方法一:檢查圖像模糊或沒有,並選擇其中一個更好。
2-方法2:稱爲canny方法(或sobel),並選擇更好的圖像。
3-方法2:檢查圖像上的輪廓計數,並根據輪廓面積選擇看起來更好的計數,然後計數。
有什麼更好的建議嗎?
形態學操作如何估計更好的解決方案? –
對於情況2,字母R中的黑色像素缺失,所以使用適當的內核我們可以填充缺失的像素。在情況4中,使用細化操作或骨架化我們可以將它們分開,然後應用侵蝕來增加寬度來連接字母。如果你正在使用tesseract進行字符識別,它使較差的分辨率圖像性能較差。希望這有助於 – Jijeesh
謝謝,但問題是要找出哪一個更好,而不是增強不良輸入。 –