2016-11-19 545 views
2

我有相當簡單的圖片,但tesseract沒有成功給我正確的答案。Python tesseract提高了OCR的準確性

代碼:

pytesseract.image_to_string(image, lang='eng') 

enter image description here

例畫面給人的

SARVN PRIM E N EU ROPTICS\nBLU EPRINT 

結果我也試圖以我自己的單詞添加到字典中,如果它讓更好的東西,但仍然沒有。

pytesseract.image_to_string(image, lang='eng', config="--user-words words.txt") 

我的單詞列表看起來像這樣

SARYN 
PRIME 
NEUROPTICS 
BLUEPRINT 

我應該如何看待這個問題,也許我預測之前,將圖像轉換?文字顏色可以在幾種顏色之間變化,但背景總是黑色

回答

1

嘗試反轉圖像,然後進行二值化/閾值處理,在使用嘗試OCR之前在白色背景上獲取黑色文本。

請參閱this post瞭解Python中圖像二值化的提示。

當然,質量越好,輸入圖像中的文字越清晰,您的OCR結果就越好。

我用一個外部工具將其更改爲白色黑色,並得到下面的圖像。

Inverted and Binarized