2012-02-23 29 views
0

這是我的tesseract與第一次的經驗,我想讀包含在這些TIFF圖像的數字:爲什麼只有1張圖片才能被tesseract正確讀取?

http://imageshack.us/g/703/64553021.png/

正如你可以看到他們是在相同的格式,也同樣寬度/高度。我不知道爲什麼tesseract只爲第二個圖像(「150」)返回正確的輸出,而第一個返回空白輸出。

也許我應該修改它們以最好地適合tesseract?怎麼樣?如果需要,我可以使用Imagemagick。

在此先感謝。

+0

您使用了哪些選項和語言?我沒有得到兩個圖像的預期結果。 – vulkanino 2012-02-23 13:52:31

+1

你必須使用'tesseract a.tif輸出nobatch數字' – KingBOB 2012-02-23 14:00:44

+0

是不是使用像'-l ita'這樣的語言文件? – vulkanino 2012-02-23 14:05:11

回答

0

在自述,他們說: 在可執行文件,網頁佈局分析默認情況下啓用。您可能需要關閉它才能處理小圖像。目前還沒有命令行控制。抱歉。請參閱tesseractmain.cpp。

我認爲你的圖片太小,請嘗試編輯代碼(並重新編譯)。

+0

但爲什麼一個圖像被處理,而不是其他的?也許'150'比'75'更大,所以後者被認爲是噪音。我會盡量放大它們! – KingBOB 2012-02-23 14:02:45

+2

Tesseract需要字符「x高度」至少爲10像素,最好爲20(請參見[http://code.google.com/p/tesseract-ocr/wiki/FAQ](http://code.google.com/p/tesseract-ocr/wiki/FAQ),這些數字的高度約爲10個像素,因此它們的x大小可能是6--它們可以很容易地作爲噪聲去除,您應該調整它們2到4次並獲得相當好的結果,因爲它們很容易出現。 – 2012-02-23 15:14:06

相關問題