我試圖改進OpenSource OCR軟件的結果。我正在使用tessaract,因爲我發現它仍然比gocr產生更好的結果,但是質量差的輸入會帶來很大的問題。於是,我就prepocess用各種工具在圖像我在互聯網上找到:如何提高OCR結果
- unpaper
- 弗雷德的ImageMagick的腳本:TEXTCLEANER使用GIMP
這個在線伺服器這個測試文檔的冰塊效果出奇的好: http://www.onlineocr.net/
我想知道是否有可能使用智能預處理來獲得與tesseract類似的結果。與商業版本相比,OpenSource OCR引擎是否真的如此糟糕?即使谷歌使用tesseract掃描文件,所以我期待更多...
提高分辨率提高的結果。 我玩了自適應閾值,它解決了不均勻的照明問題,但是有白色區域的問題。我從Fred的ImageMagick腳本中找到了2colreshresh,以提供更好的結果。 我的當前命令如下所示: convert aBrG8w2_700b.jpg -resize 1600 -contrast -contrast -contrast + dither -colors 2 -colorspace gray -contrast-stretch 10%test.png && tesseract test.png test && cat test。 txt 好得多,但仍然不是真正可用的。有沒有人有更好的方法? –
與區域有關的問題是因爲當使用自適應閾值進行遊戲時,通常意味着將圖像分成小塊,而不是單獨對每一個進行二進制化。因此,在某些塊(如您所談論的白色區域)中將不會出現前景(文本)和背景,並且在這種情況下二值化失敗。 我不知道你使用的算法有多靈活,但是一個解決方案可以從每個塊的閾值中減去一個常數,這樣即使沒有文本存在,閾值也會低於白色背景。 – giubacchio
無論如何,即使您使用的閾值算法不靈活,刪除這些工件也不是什麼大問題。一種方法可能是查看每個blob的幾何屬性。 – giubacchio