讓gocr使用數據庫

我想讓gocr在png中識別文本。我跑GOCR使用下列內容：讓gocr使用數據庫

gocr -p ../db/ -m 386 output-4.png

的-m 386選項關閉了識別引擎，並擴展了數據庫（提示用戶進行身份不明的字符，與用戶回答擴展數據庫）根據手冊頁。

gocr會提示我輸入它無法識別的字符，並告訴它字符是什麼 - 然後它會生成一個完美的（足夠接近的）png文檔。

所以我重新運行GOCR使用：

gocr -p ../db/ -m 258 output-4.png

這裏-m 258選項關閉字符識別算法，並告訴GOCR從數據庫中的字符匹配。但現在它輸出許多無法識別的字符。它不應該產生與訓練數據庫後獲得的輸出相同的輸出嗎？

我可以打開使用算法的匹配（然後讓gocr匹配數據庫中的字符，當它找不到匹配時），但它會引入很多錯誤，例如將「9」識別爲「g」，或者一個「0」作爲「o」等等。

有誰知道我在做什麼錯？

2012-06-06 John

你可以訓練gocr -a 100標誌，它應該詢問你更多的字符。這對我有效。所以：

gocr -p ../db/ -m 386 -a 100 output-4.png

2012-08-06 00:52:42

回答