2016-11-18 38 views
0

我需要處理一些文本圖像,來自reCAPTCHA的圖像。我想將圖像分成幾部分,每個部分都是一個字符的邊界框。 圖像包含淺色字體和深色字體,所有圖像都帶有一些白色邊緣空間。將文本圖像分割爲字符的最佳方法

例如:

enter image description here enter image description here

我已經預處理的圖像轉換成灰度和去偏斜他們。 如何繼續切片圖像。 我該如何擺脫白邊,是否有一種方便的方式來填充類似的文字背景顏色的邊距?

+0

它不會那麼容易,因爲他們故意試圖避免它。看看第一張圖片「Jeggen」。即使在背景中也有巨大的噪音。 – cagatayodabasi

+1

我認爲這個問題在[信號處理堆棧交換](http://dsp.stackexchange.com/)中更合適。 – jadsq

+0

@cagatayodabasi我相信這些噪音並非有意爲之,它們來自於新的google recaptcha:它是從谷歌街景項目中提取的真實世界圖片中提取的文本,由人類破譯。 – jadsq

回答

0

給定的問題可以通過查找輪廓使用opencv來解決。查看opencv文檔中的findcontours函數。它幫助我解決了這個問題。使用範圍來限制由輪廓創建的噪音。

image = cv2.cvtColor('image.jpg',cv2.COLOR_BGR2GRAY,1) 
ret,thresh = cv2.threshold(image,150,255,0) 
n_,contours,_ = cv2.findContours(thresh,cv2.RETR_TREE,cv2.CHAIN_APPROX_SIMPLE) 
相關問題