嵌入式/可編寫腳本的OCR引擎有哪些選擇？

我正在使用Python/Django的Web應用程序，我需要從掃描文檔中提取文本（用於搜索索引）。嵌入式/可編寫腳本的OCR引擎有哪些選擇？

OCR引擎有哪些選擇？我知道tesseract，但我並不完全滿意的結果。問題可能可以通過更廣泛的預處理（旋轉，水平調整等）來解決。

要求：

應該不需要手動調諧（比初始調諧其他）
優選開源的，可選地應儘可能買「自由」許可證
要麼Python模塊，或Command行程序（或C-庫我可以變成一個命令行程序:)）

或者：

這是一個不錯的圖像庫，它可以進行圖像預處理，使像tesseract這樣的現有引擎的性能更好。

2011-08-15 Krumelur

正方體本身可以任意做出與Leptonica，一個漂亮的一套詳盡的圖像處理庫（我不知道，如果正方體本身使用它的任何東西不是支持不僅僅是基本的TIF格式越多編譯）。可以在the website.上找到完整的功能列表項目作者Dan Bloomberg撰寫了一些關於OCR圖像預處理的文章，這些文章也許對您很感興趣 - 您可以通過Google搜索找到它們。

來源

2011-08-15 16:55:01 susmits

謝謝！我會再次嘗試Tesseract，並繼續尋找更好的（=更多automagic）預處理庫。 – Krumelur

嵌入式/可編寫腳本的OCR引擎有哪些選擇？

回答

相關問題