0
我需要處理一些文本圖像,來自reCAPTCHA的圖像。我想將圖像分成幾部分,每個部分都是一個字符的邊界框。 圖像包含淺色字體和深色字體,所有圖像都帶有一些白色邊緣空間。將文本圖像分割爲字符的最佳方法
例如:
我已經預處理的圖像轉換成灰度和去偏斜他們。 如何繼續切片圖像。 我該如何擺脫白邊,是否有一種方便的方式來填充類似的文字背景顏色的邊距?
我需要處理一些文本圖像,來自reCAPTCHA的圖像。我想將圖像分成幾部分,每個部分都是一個字符的邊界框。 圖像包含淺色字體和深色字體,所有圖像都帶有一些白色邊緣空間。將文本圖像分割爲字符的最佳方法
例如:
我已經預處理的圖像轉換成灰度和去偏斜他們。 如何繼續切片圖像。 我該如何擺脫白邊,是否有一種方便的方式來填充類似的文字背景顏色的邊距?
給定的問題可以通過查找輪廓使用opencv
來解決。查看opencv
文檔中的findcontours
函數。它幫助我解決了這個問題。使用範圍來限制由輪廓創建的噪音。
image = cv2.cvtColor('image.jpg',cv2.COLOR_BGR2GRAY,1)
ret,thresh = cv2.threshold(image,150,255,0)
n_,contours,_ = cv2.findContours(thresh,cv2.RETR_TREE,cv2.CHAIN_APPROX_SIMPLE)
它不會那麼容易,因爲他們故意試圖避免它。看看第一張圖片「Jeggen」。即使在背景中也有巨大的噪音。 – cagatayodabasi
我認爲這個問題在[信號處理堆棧交換](http://dsp.stackexchange.com/)中更合適。 – jadsq
@cagatayodabasi我相信這些噪音並非有意爲之,它們來自於新的google recaptcha:它是從谷歌街景項目中提取的真實世界圖片中提取的文本,由人類破譯。 – jadsq