2016-08-17 76 views
2

我對Tesseract OCR完全陌生。這個問題可能很簡單,但我似乎無法使用Google找到答案。使用Tesseract檢測黑色背景上的白色字符

基本上,我有一個圖像,其中包含兩部分:第一部分,在圖像的頂部,有黑色背景,白色文本;位於圖像底部的第二部分具有白色背景,黑色文本。

我在圖像上運行了tesseract,它能夠正確識別底部的所有字符,但在頂部沒有。我相信頂部的角色非常清晰,應該很容易被Tesseract識別出來。唯一的區別是它有黑色背景。

有沒有辦法使用Tesseract在黑色和白色背景中同時識別文本?

回答

0

T. Kasar,J. Kumar和A. G. Ramakrishnan的論文描述了一個解決問題的方法:「字體和背景顏色獨立文本二值化」。該文件可以找到here。 Jason Funk有一個算法的實現。他的實現可以找到here。 我已經有了一些成功的算法。我認爲這種解決方案就是你要找的。

您可能還會發現查看最近問的關於背景刪除(OpenCV for OCR: How to compute thresholding levels for gray image OCR)及其答案的幫助。您可能能夠通過背景顏色區分感興趣的區域,然後將每個區域交給tesseract進行處理。或者,後二值化可以反轉圖像的黑色背景部分(或反之)中的8x8像素區域(在上面的回答中進行了描述)以創建統一的背景。

最後,您可以通過搜索車牌識別問題(或車牌)的解決方案找到一些有用的信息。許多車牌(車牌)具有可能干擾識別的背景圖像或照明僞影。更一般的問題是背景清除。