2014-01-16 231 views
1

我使用Tess4J以編程方式使用Tesseract,這對識別任務非常有用。使用Tess4J生成訓練數據

現在我想添加一些功能來幫助從this wiki article中描述的文本生成受過訓練的數據文件,但是從Java/Tess4J中描述。如果必須使用「新自動方法」或「舊手動方法」,則無關緊要。兩者都會好的。

Tess4J是否支持此功能,或者是否存在另一種能夠訓練Tesseract的Java綁定?

+0

你提到的文章談到了使用額外的庫,「培訓」庫。 Tess4J實際上只是JNA 4.0(Java Native Access代碼)的一個包裝。所以,在我看來,如果你想使用額外的庫,你將不得不爲這些庫編寫JNA代碼。如果你這樣做,它會成爲一個偉大的開源項目。你可能會發現一些開源項目已經完成了這個,但我沒看過。 – NicholasKarl

+0

我不確定這些其他可執行文件是否是libtesseract302。(dll | so)的一部分。 – pvorb

回答

2

培訓由除Tesseract之外的其他可執行文件提供,它們不作爲API或庫公開。對於基於Java的Tesseract培訓,您可能想要查看jTessBoxEditor項目。

+0

感謝您的信息。我想我必須研究如何爲訓練工具編寫JNA包裝。可能我可以建立一個揭示該功能的庫。 – pvorb

+0

我會接受這個解決方案,直到有更好的解決方案。 – pvorb

+0

@nguyenq,aboe項目不支持阿拉伯語,有沒有支持阿拉伯語的項目? –