2014-09-22 112 views
0

對視窗7安裝的tesseract-OCR v3.02.02,並通過命令行一起使用:標記字體樣式(斜體)的tesseract在OCR

1)輸出爲png文本到文本文件:超正方體圖像2)輸出png文本到一個html文件:tesseract image.png htmlfile hocr

我需要它能夠標記輸出文本或html文件中的任何斜體文本。我該如何做(最好在命令行上 - 從未在API模式下使用過)?

回答

0

Tesseract輸出的hocr只包含單詞座標和置信度值,而不包括與字體相關的信息。因此,您需要修改源代碼以輸出您想要的命令行模式或使用其API。

+0

謝謝你。如果能夠突出顯示哪些文件需要編輯,請將一些示例代碼輸出爲斜體文本標記,我將不勝感激。或者,建議我如何通過它的API實現 - 不熟悉Tesseract API。我對PHP/JavaScript很熟悉,但對C/C++沒有多大作用。 – user2417713 2014-09-26 18:05:05

+0

您需要訪問[Tesseract網站](https://code.google.com/p/tesseract-ocr/)以及針對這些信息的論壇。閱讀[API示例](https://code.google.com/p/tesseract-ocr/wiki/APIExample)瞭解ResultIterator類的用法,並查看問題頁面中與hocr相關的問題以查找相應的類/文件爲hocr輸出。 – nguyenq 2014-09-27 02:51:49

相關問題