2
我想對打印的文檔進行文本分割。我已經將文檔分割爲字符分割,但是當我碰到一些感人的角色時,我失敗了。我只想使用Tesseract OCR來分割單詞。我知道Tesseract可以完成這項任務,但是我不知道如何在不挖掘tesseract的內部代碼的情況下訪問它。任何人都可以給我一些建議嗎?如果可能的話,我需要Python。僅使用Tesseract OCR進行字符分割
我想對打印的文檔進行文本分割。我已經將文檔分割爲字符分割,但是當我碰到一些感人的角色時,我失敗了。我只想使用Tesseract OCR來分割單詞。我知道Tesseract可以完成這項任務,但是我不知道如何在不挖掘tesseract的內部代碼的情況下訪問它。任何人都可以給我一些建議嗎?如果可能的話,我需要Python。僅使用Tesseract OCR進行字符分割
如果您可以調用TessBaseAPIGetComponentImages
API方法,則可以在各種pageIteratorLevel
級別(符號/字符,字,行等)上檢索分割,而無需在圖像上執行實際的OCR。