生成eng.traineddata tesseract 3.03不使用wordlist

我正在處理圖像項目。我必須做的是從圖像中提取文本，我實際上在windows上使用了tesseract 3.03的python包裝器，並且我已經下載了許多語言的.traineddata文件（英文，frensh，...）。問題是我在某處看到tesseract嘗試在檢測到分隔字符後使用wordlist文件檢測單詞。我的問題是如何在不使用wordlist的情況下生成.traineddata文件，因爲我想要tesseract返回檢測到的句子而不驗證單詞生成eng.traineddata tesseract 3.03不使用wordlist

來源

2017-05-04 jonathan

您可以解壓縮.traineddata文件，將字典組件替換爲空文件並重新打包。或者你可以簡單地禁用字典。

Disable dictionary in Tesseract

來源

2017-05-04 14:29:42 nguyenq

太感謝你了，我會嘗試，並提供反饋 – jonathan

我已經做了快速搜索，我明白了.traineddata文件被啃文件 tessdata/eng.config 產生tessdata/eng.unicharset tessdata/eng.unicharambigs tessdata/eng.inttemp tessdata/eng.pffmtable tessdata/eng.normproto tessdata/eng.punc-耶 tessdata/eng.word-耶 tessdata /工程。 number-dawg tessdat A/eng.freq-耶和你說，我將取代 tessdata/eng.punc-耶 tessdata/eng.word-耶 tessdata/eng.number-耶 tessdata/eng.freq，耶由空的ones.The問題現在是在哪裏可以找到其他文件的tesseract 3.02 – jonathan

我只是在尋找一個unicharset文件和相應的inttemp，pffmtable，normproto for english，tesseract 3.02 – jonathan

生成eng.traineddata tesseract 3.03不使用wordlist

回答

相關問題