我正在使用tesseract從圖像中讀取文本。由於我的BinaryImage輸入不會是純白色背景中的簡單文本,所以我只能獲得50%的正確輸出。如何在使用tesseract閱讀之前清潔圖像的文本?
有沒有辦法預處理圖像,以便我可以從tesseract得到正確的輸出?我已經嘗試過使用Otsu's method進行灰度縮放和二值化圖像,但沒有任何改進。
由於我正在使用java做所有這些工作,如果有人可以共享任何java lib的詳細信息或步驟以從tesseract中獲得更好的結果,將會有所幫助。
我沒有得到正確的ImageMagick文檔在我的Java代碼中使用它。任何對此的幫助表示讚賞。
sample image (any wireless bill of AT & T)
感謝您的幫助。我發現寫得很好的用於圖像處理的java庫。我現在可以優化輸出。我會在我的回答中解釋更多。 –