我正在努力讓林肯字體在Tesseract中工作,即使經歷了wildly complicated training process之後,我也得到了糟糕的結果。向Tesseract OCR引擎添加Blackletter字體支持
這是字體的樣子,所以是的,這是一個有點棘手:
我精心製作訓練圖像,然後用,爲了使文件箱。 The training image is here (25MB!)。圖像是300 DPI,並有垂直和水平很好的代表性字符。
我爲訓練圖像製作了一個盒子文件,它工作正常。我已使用a box file editor驗證它是正確的。
我把這個盒子文件/ tif文件,並用它來創建訓練數據。我也採用了Tesseract提供的30 or so other sample images/fonts。
我創建了unicharset文件。
我創建了一個font_properties文件。在網站上沒有關於何時應該使用fraktur的指導。所以,我已經試過了兩個這樣(fraktur對林肯):
eng.lincoln.box 0 0 0 0 1
而且這種方式(fraktur關閉):
eng.lincoln.box 0 0 0 0 0
最後,我有和沒有字典試過這種文件。當我使用字典文件時,它們是我的搜索引擎Sphinx的wordmap,它們有大約15K個常用字和大約20K個不常用字。
在所有情況下,當我嘗試OCR第一對夫婦this file (3MB)時,質量很差。而不思:
United States Court of Appeals
for the Federal Circuit
我得到:
OniteiJ %tates C0urt of QppeaIs
for the jfeI1eraICircuit
爲什麼?
最終,我做出更大的訓練文件,並一遍又一遍地重複訓練過程,直到它的工作。謝謝您的幫助。 – mlissner 2012-02-13 08:04:25