2012-06-06 26 views
2

我想讓gocr在png中識別文本。我跑GOCR使用下列內容:讓gocr使用數據庫

gocr -p ../db/ -m 386 output-4.png 

的-m 386選項關閉了識別引擎,並擴展了數據庫(提示用戶進行身份不明的字符,與用戶回答擴展數據庫)根據手冊頁。

gocr會提示我輸入它無法識別的字符,並告訴它字符是什麼 - 然後它會生成一個完美的(足夠接近的)png文檔。

所以我重新運行GOCR使用:

gocr -p ../db/ -m 258 output-4.png 

這裏-m 258選項關閉字符識別算法,並告訴GOCR從數據庫中的字符匹配。但現在它輸出許多無法識別的字符。它不應該產生與訓練數據庫後獲得的輸出相同的輸出嗎?

我可以打開使用算法的匹配(然後讓gocr匹配數據庫中的字符,當它找不到匹配時),但它會引入很多錯誤,例如將「9」識別爲「g」,或者一個「0」作爲「o」等等。

有誰知道我在做什麼錯?

回答

1

你可以訓練gocr -a 100標誌,它應該詢問你更多的字符。這對我有效。所以:

gocr -p ../db/ -m 386 -a 100 output-4.png