2015-10-20 65 views
0

我從JAVA運行使用tess4j作爲包裝圖片系列OCR正方體。 ocr的過程仍然需要大量的時間(有時甚至是5秒),我正試圖加快速度。繞過正方體預處理

我正在做我自己的圖像預處理和二值化,而tesseract並不需要進行otsu二值化。

我已閱讀IOS允許跳過圖形處理部分的教程,但我找不到任何使用tess4j。

這裏的turial:https://github.com/gali8/Tesseract-OCR-iOS/wiki/Tips-for-Improving-OCR-Results -
「......如果你已經執行自己的預處理/閾值[...]你可能會想繞過內部的Tesseract閾值步驟」

有沒有人知道我可以如何使用tess4j(來自JAVA)以跳過otsu二值化的方式?

回答

1

檢查tesseract-ocr parameters列表適用於任何設置。但我讀到,如果您發送二值化圖像,Tesseract將跳過圖像上的閾值(source)。

+0

我用彩色圖像和二值化版本進行了測試,結果沒有任何時間差異。 我發送的圖像爲PNG,你知道我是否應該設置圖像中的任何屬性爲單色嗎? – user3452075

+0

[thresholder](https://github.com/tesseract-ocr/tesseract/blob/master/ccmain/thresholder.cpp)測試圖像的位深度/ 8 == 0以確定是否執行該操作。所以確保你的圖像有1bpp。 – nguyenq