使用Tesseract檢測黑色背景上的白色字符

我對Tesseract OCR完全陌生。這個問題可能很簡單，但我似乎無法使用Google找到答案。使用Tesseract檢測黑色背景上的白色字符

基本上，我有一個圖像，其中包含兩部分：第一部分，在圖像的頂部，有黑色背景，白色文本;位於圖像底部的第二部分具有白色背景，黑色文本。

我在圖像上運行了tesseract，它能夠正確識別底部的所有字符，但在頂部沒有。我相信頂部的角色非常清晰，應該很容易被Tesseract識別出來。唯一的區別是它有黑色背景。

有沒有辦法使用Tesseract在黑色和白色背景中同時識別文本？

2016-08-17 Chaoran

T. Kasar，J. Kumar和A. G. Ramakrishnan的論文描述了一個解決問題的方法：「字體和背景顏色獨立文本二值化」。該文件可以找到here。 Jason Funk有一個算法的實現。他的實現可以找到here。我已經有了一些成功的算法。我認爲這種解決方案就是你要找的。

您可能還會發現查看最近問的關於背景刪除（OpenCV for OCR: How to compute thresholding levels for gray image OCR）及其答案的幫助。您可能能夠通過背景顏色區分感興趣的區域，然後將每個區域交給tesseract進行處理。或者，後二值化可以反轉圖像的黑色背景部分（或反之）中的8x8像素區域（在上面的回答中進行了描述）以創建統一的背景。

最後，您可以通過搜索車牌識別問題（或車牌）的解決方案找到一些有用的信息。許多車牌（車牌）具有可能干擾識別的背景圖像或照明僞影。更一般的問題是背景清除。

來源

2016-09-03 17:48:35

使用Tesseract檢測黑色背景上的白色字符

回答

相關問題