0
我正在處理圖像項目。我必須做的是從圖像中提取文本,我實際上在windows上使用了tesseract 3.03的python包裝器,並且我已經下載了許多語言的.traineddata文件(英文,frensh,...)。問題是我在某處看到tesseract嘗試在檢測到分隔字符後使用wordlist文件檢測單詞。我的問題是如何在不使用wordlist的情況下生成.traineddata文件,因爲我想要tesseract返回檢測到的句子而不驗證單詞生成eng.traineddata tesseract 3.03不使用wordlist
太感謝你了,我會嘗試,並提供反饋 – jonathan
我已經做了快速搜索,我明白了.traineddata文件被啃文件 tessdata/eng.config 產生tessdata/eng.unicharset tessdata/eng.unicharambigs tessdata/eng.inttemp tessdata/eng.pffmtable tessdata/eng.normproto tessdata/eng.punc-耶 tessdata/eng.word-耶 tessdata /工程。 number-dawg tessdat A/eng.freq-耶 和你說,我將取代 tessdata/eng.punc-耶 tessdata/eng.word-耶 tessdata/eng.number-耶 tessdata/eng.freq,耶 由空的ones.The問題現在是在哪裏可以找到其他文件的tesseract 3.02 – jonathan
我只是在尋找一個unicharset文件和相應的inttemp,pffmtable,normproto for english,tesseract 3.02 – jonathan