0

我從來沒有用過python,我不知道從哪裏開始。我的目標是拍攝數字和多彩背景的圖像數據,並可靠地獲取識別出的正確字符。我研究了必要的工具,並且我發現了Anaconda python發行版,它包含了我可能需要的所有可能的軟件包,以及tesseract-ocr和pytesser。Windows上的Python OCR入門?

不幸的是,我迷失在如何開始。我「米使用PyCharm社區IDE,只是試圖按照本指南: http://www.manejandodatos.es/2014/11/ocr-python-easy/ 得到的OCR把握

這是我使用的代碼:

from PIL import Image 
from pytesser import * 

image_file = 'menu.jpg' 
im = Image.open(image_file) 
text = image_to_string(im) 
text = image_file_to_string(image_file) 
text = image_file_to_string(image_file, graceful_errors=True) 
print "=====output=======\n" 
print text 

,我相信我使用蟒蛇分佈有PIL,但我得到這個錯誤:

C:\Users\diego_000\Anaconda\python.exe C:/Users/diego_000/PycharmProjects/untitled/test.py 
Traceback (most recent call last): 
    File "C:/Users/diego_000/PycharmProjects/untitled/test.py", line 2, in <module> 
    from pytesser import * 
    File "C:\Users\diego_000\PycharmProjects\untitled\pytesser.py", line 6, in <module> 
    import Image 
ImportError: No module named Image 

Process finished with exit code 1 

任何人都可以點我在正確的方向

+0

安裝枕頭。使用'從PIL導入圖像' –

+0

你能解釋一下這個更多一點嗎?我已經寫了這行,所以我只需要安裝Pillow?或者我會從pytesser import *'中刪除下面一行'? – Ryan

回答

1

你指向的文件稱,除非你使用

import Image 

等解釋正確的說,使用

from PIL import Image 

ImportError: No module named Image 

它看起來好像你重新排序行

from PIL import Image 
from pytesser import * 

,pytesser對PIL有不正確的編碼依賴。但我不能確定你提供的代碼。

+0

我用'from PIL import Image'替換了pytesser.py中的'import image'行,並且我的代碼編譯了,但是我沒有得到任何輸出,這是否意味着代碼在某種程度上存在缺陷?我沒有用它的jpg格式替換原始的.tiff圖像,你會碰巧知道它是否會影響它? – Ryan

+0

它可以很好地影響它。 TIFF是一個未壓縮的文件,並且將具有比壓縮JPG更乾淨的字母邊緣。 – msw

+0

使用pytesser包含的fonts_test.png文件時一切正常,但每當使用任何其他圖像時都會出現問題。我想這只是pytesser的限制呢? – Ryan