我是tesseract的新手,並且與github頁面中的不同目錄有點混淆。遇到問題培訓tesseract
tesserac-ocr代碼庫是我安裝的。這在/ usr/local/share下安裝了tessdata目錄/ tessdata/
所以現在訓練時的Tesseract我運行下面的命令 -
# tesseract img.tif img box.train
我收到以下錯誤
Tesseract Open Source OCR Engine v3.03 with Leptonica
Error opening data file /usr/local/share/tessdata/eng.traineddata
Please make sure the TESSDATA_PREFIX environment variable is set to the parent directory of your "tessdata" directory.
Failed loading language 'eng'
Tesseract couldn't load any languages!
Could not initialize tesseract.
顯然它無法找到tessdata文件夾。
所以,現在我從github獲得了tessdata目錄(https://github.com/tesseract-ocr/tessdata)。然後將TESSDATA_PREFIX指向從github下載的tessdata。不會改變任何東西。我得到以下錯誤 -
Tesseract Open Source OCR Engine v3.03 with Leptonica
read_params_file: Can't open box.train
所以我的問題是應該指出什麼tessdata? tesseract從訓練命令中獲得box.train的位置?
您是否創建並檢查box.train文件?如果不是,則必須先用'tesseract img.tif img batch.nochop makebox'創建box.train。之後,如果您的角色被正確檢測到,您將不得不檢查箱子文件。 –