TensorFlow - 圖像

我是新來TensorFlow和深度學習文字識別。我想識別naturel場景圖像中的文本。我曾經使用OCR，但我想使用深度學習。文本總是具有相同的格式： ABC-DEF 88:88。TensorFlow - 圖像

我所做的就是承認每個字符/數字。這意味着我剪切了每個角色周圍的圖像（因此每幅圖都給了我10個角色）來構建我的訓練和測試集，並且他們構建了一個兩個神經網絡。所以我的訓練集是一組人物圖片，標籤只是字符/數字。

但我想走得更遠。我想要做的只是給出完整的圖片並輸出整個文本（而不是像我之前的模型中的一個字符）。

非常感謝您的幫助。

來源

2017-02-15 A. Attia

困難的是，你不知道在哪裏文字。解決方案是，給定一幅圖像，您需要使用滑動窗口來裁剪圖像的不同部分，然後使用分類器來確定裁剪區域中是否有文本。如果是這樣，請使用您的字符/數字識別器來確定它們確實是哪些字符/數字。

所以，你需要培養另一種分類器：給定一個裁剪圖像（裁剪圖像的尺寸應該比你的文本區域稍大），決定是否有內部文本。

只是構建訓練集（陽性樣品文本區域，陰性樣品是從大圖像裁剪隨機等領域），並訓練它〜

來源

2017-02-15 09:02:47 soloice

謝謝，但應該出這樣的分類（滑動窗口）必須是convnet？訓練集必須包含多個字符文本區域或只有一個字符？ –

一個convnet是好的，易於實現，如果你正在使用TensorFlow，來自Caffe或其他一些深層的學習框架，但可能是在檢測階段慢（因爲你需要到窗口在整個圖像幻燈片，每個圖像有很多窗戶）。其他模型也可以工作，例如具有類哈爾特徵的提升方法（Google提供的「haar like feature adaboost cascade」，您可以在臉部識別上找到很多材料）。 – soloice

@alexattia訓練集最好包含多個字符。通過這樣做，您可以擁有更大的窗口並減少誤報。如果面積太小，可能會將其他一些事情報告爲字母/數字。說，算法可能需要一些垂直邊緣作爲數字「1」，這是可怕的。 – soloice

TensorFlow - 圖像

回答

相關問題