將文本圖像分割爲字符的最佳方法

我需要處理一些文本圖像，來自reCAPTCHA的圖像。我想將圖像分成幾部分，每個部分都是一個字符的邊界框。圖像包含淺色字體和深色字體，所有圖像都帶有一些白色邊緣空間。將文本圖像分割爲字符的最佳方法

例如：

我已經預處理的圖像轉換成灰度和去偏斜他們。如何繼續切片圖像。我該如何擺脫白邊，是否有一種方便的方式來填充類似的文字背景顏色的邊距？

來源

2016-11-18 9blue

它不會那麼容易，因爲他們故意試圖避免它。看看第一張圖片「Jeggen」。即使在背景中也有巨大的噪音。 – cagatayodabasi

我認爲這個問題在[信號處理堆棧交換]（http://dsp.stackexchange.com/）中更合適。 – jadsq

@cagatayodabasi我相信這些噪音並非有意爲之，它們來自於新的google recaptcha：它是從谷歌街景項目中提取的真實世界圖片中提取的文本，由人類破譯。 – jadsq

給定的問題可以通過查找輪廓使用opencv來解決。查看opencv文檔中的findcontours函數。它幫助我解決了這個問題。使用範圍來限制由輪廓創建的噪音。

image = cv2.cvtColor('image.jpg',cv2.COLOR_BGR2GRAY,1) 
ret,thresh = cv2.threshold(image,150,255,0) 
n_,contours,_ = cv2.findContours(thresh,cv2.RETR_TREE,cv2.CHAIN_APPROX_SIMPLE)

來源

2017-01-19 07:00:31 Kullal

將文本圖像分割爲字符的最佳方法

回答

相關問題