我正在開發一個文本識別項目。 我已經使用TensorFlow建立了一個分類器來預測數字,但我想通過使用文本本地化和文本分割(分隔每個字符)來實現更復雜的文本識別算法,但是我沒有找到算法部分的實現。我知道一些算法/實現/技巧,我使用TensorFlow來本地化文本,並在自然場景圖片中進行文本分割(實際上是在運動圖片的記分牌中對文本進行本地化和分割)?使用TensorFlow進行文本識別和檢測
非常感謝您的幫助。
我正在開發一個文本識別項目。 我已經使用TensorFlow建立了一個分類器來預測數字,但我想通過使用文本本地化和文本分割(分隔每個字符)來實現更復雜的文本識別算法,但是我沒有找到算法部分的實現。我知道一些算法/實現/技巧,我使用TensorFlow來本地化文本,並在自然場景圖片中進行文本分割(實際上是在運動圖片的記分牌中對文本進行本地化和分割)?使用TensorFlow進行文本識別和檢測
非常感謝您的幫助。
要對頁面上的元素(例如文本和圖像段落)進行分組,您可以使用某些聚類算法和/或具有某些閾值的blob檢測。
您可以使用Radon變換來識別線條並檢測掃描頁面的歪斜。
我認爲對於字符分離,你將不得不混亂字體。一些多項式匹配/擬合等等。 (現在這是一個非常瘋狂的猜測,不要認真對待)。 但類似的方法可以讓你將字符排除在外並在同一步中識別它。
至於承認,一旦你有一個角色,有一個很好的三角訣竅比較字符角度存儲在數據庫中的角度。 作品也很棒。
我不是如何精確分割頁面的專家,但似乎我正在努力成爲一名專家。只是在一個包括它的項目上工作。 所以給我一個月,我可以告訴你更多。 :D
無論如何,你應該去閱讀Tesseract代碼,看看惠普和谷歌在那裏做了什麼。它應該給你很好的想法。
祝你好運!
這是一個__extremely__廣泛的問題,辮子的答案是肯定的。 – putonspectacles
我個人喜歡用OCR的鼠標/觸摸屏手勢識別算法。你做了類似的事嗎? – Dalen