2017-02-15 98 views
6

我是新來TensorFlow和深度學習文字識別。 我想識別naturel場景圖像中的文本。我曾經使用OCR,但我想使用深度學習。文本總是具有相同的格式: ABC-DEF 88:88TensorFlow - 圖像

我所做的就是承認每個字符/數字。這意味着我剪切了每個角色周圍的圖像(因此每幅圖都給了我10個角色)來構建我的訓練和測試集,並且他們構建了一個兩個神經網絡。所以我的訓練集是一組人物圖片,標籤只是字符/數字。

但我想走得更遠。我想要做的只是給出完整的圖片並輸出整個文本(而不是像我之前的模型中的一個字符)。

非常感謝您的幫助。

回答

5

困難的是,你不知道在哪裏文字。解決方案是,給定一幅圖像,您需要使用滑動窗口來裁剪圖像的不同部分,然後使用分類器來確定裁剪區域中是否有文本。如果是這樣,請使用您的字符/數字識別器來確定它們確實是哪些字符/數字。

所以,你需要培養另一種分類器:給定一個裁剪圖像(裁剪圖像的尺寸應該比你的文本區域稍大),決定是否有內部文本。

只是構建訓練集(陽性樣品文本區域,陰性樣品是從大圖像裁剪隨機等領域),並訓練它〜

+0

謝謝,但應該出這樣的分類(滑動窗口)必須是convnet?訓練集必須包含多個字符文本區域或只有一個字符? –

+1

一個convnet是好的,易於實現,如果你正在使用TensorFlow,來自Caffe或其他一些深層的學習框架,但可能是在檢測階段慢(因爲你需要到窗口在整個圖像幻燈片,每個圖像有很多窗戶)。其他模型也可以工作,例如具有類哈爾特徵的提升方法(Google提供的「haar like feature adaboost cascade」,您可以在臉部識別上找到很多材料)。 – soloice

+0

@alexattia訓練集最好包含多個字符。通過這樣做,您可以擁有更大的窗口並減少誤報。如果面積太小,可能會將其他一些事情報告爲字母/數字。說,算法可能需要一些垂直邊緣作爲數字「1」,這是可怕的。 – soloice