2017-04-30 61 views
0

我目前正在開發一個商業軟件。我需要添加漢字和單詞檢測的功能,但似乎場景文本檢測的功能只能檢測英文字和單詞。我在谷歌搜索和沒有任何相關的表現。opencv/emgucv中文單詞檢測

我會將掃描的A4紙張圖像送到應用程序,以便根據某些預設條件找到一些中文字詞。例如,圖像包含單詞「你好」(它的意思是「你好」 )兩次,但只提取一次,並將其保存爲一個字符串,當它符合它的預設條件時,它就位於姓名(姓名)的標題旁邊。

下面是示例的小插圖:

問候:你好

姓名(名稱):你好< ---這個詞僅檢測

可有人請,誰擁有體驗opencv或emgucv的經驗幫助我?

如果爲了實現我的目標需要自定義數據集,有人可以指導我如何在opencv或emgucv中執行數據集訓練以進行單詞檢測。

+0

我建議你採取https://github.com/tesseract-ocr/tesseract看看。這是一個ocr引擎,它能夠檢測掃描文檔上的文本。最新版本有一個已經過訓練的神經網絡。 OpenCV有一個包裝它。 https://www.youtube.com/watch?v=vtSGSXKggEo –

回答

0

(OpenCV的或EmguCV是不是你的解決方案),你需要深層神經網絡(DNN)如TensorFlow