2017-05-04 51 views
0

我正在處理圖像項目。我必須做的是從圖像中提取文本,我實際上在windows上使用了tesseract 3.03的python包裝器,並且我已經下載了許多語言的.traineddata文件(英文,frensh,...)。問題是我在某處看到tesseract嘗試在檢測到分隔字符後使用wordlist文件檢測單詞。我的問題是如何在不使用wordlist的情況下生成.traineddata文件,因爲我想要tesseract返回檢測到的句子而不驗證單詞生成eng.traineddata tesseract 3.03不使用wordlist

回答

0

您可以解壓縮.traineddata文件,將字典組件替換爲空文件並重新打包。或者你可以簡單地禁用字典。

Disable dictionary in Tesseract

+0

太感謝你了,我會嘗試,並提供反饋 – jonathan

+0

我已經做了快速搜索,我明白了.traineddata文件被啃文件 tessdata/eng.config 產生tessdata/eng.unicharset tessdata/eng.unicharambigs tessdata/eng.inttemp tessdata/eng.pffmtable tessdata/eng.normproto tessdata/eng.punc-耶 tessdata/eng.word-耶 tessdata /工程。 number-dawg tessdat A/eng.freq-耶 和你說,我將取代 tessdata/eng.punc-耶 tessdata/eng.word-耶 tessdata/eng.number-耶 tessdata/eng.freq,耶 由空的ones.The問題現在是在哪裏可以找到其他文件的tesseract 3.02 – jonathan

+0

我只是在尋找一個unicharset文件和相應的inttemp,pffmtable,normproto for english,tesseract 3.02 – jonathan