6
我是新來TensorFlow和深度學習文字識別。 我想識別naturel場景圖像中的文本。我曾經使用OCR,但我想使用深度學習。文本總是具有相同的格式: ABC-DEF 88:88
。TensorFlow - 圖像
我所做的就是承認每個字符/數字。這意味着我剪切了每個角色周圍的圖像(因此每幅圖都給了我10個角色)來構建我的訓練和測試集,並且他們構建了一個兩個神經網絡。所以我的訓練集是一組人物圖片,標籤只是字符/數字。
但我想走得更遠。我想要做的只是給出完整的圖片並輸出整個文本(而不是像我之前的模型中的一個字符)。
非常感謝您的幫助。
謝謝,但應該出這樣的分類(滑動窗口)必須是convnet?訓練集必須包含多個字符文本區域或只有一個字符? –
一個convnet是好的,易於實現,如果你正在使用TensorFlow,來自Caffe或其他一些深層的學習框架,但可能是在檢測階段慢(因爲你需要到窗口在整個圖像幻燈片,每個圖像有很多窗戶)。其他模型也可以工作,例如具有類哈爾特徵的提升方法(Google提供的「haar like feature adaboost cascade」,您可以在臉部識別上找到很多材料)。 – soloice
@alexattia訓練集最好包含多個字符。通過這樣做,您可以擁有更大的窗口並減少誤報。如果面積太小,可能會將其他一些事情報告爲字母/數字。說,算法可能需要一些垂直邊緣作爲數字「1」,這是可怕的。 – soloice