2011-08-15 39 views
1

我正在使用Python/Django的Web應用程序,我需要從掃描文檔中提取文本(用於搜索索引)。嵌入式/可編寫腳本的OCR引擎有哪些選擇?

OCR引擎有哪些選擇?我知道tesseract,但我並不完全滿意的結果。問題可能可以通過更廣泛的預處理(旋轉,水平調整等)來解決。

要求:

  • 應該不需要手動調諧(比初始調諧其他)
  • 優選開源的,可選地應儘可能買「自由」許可證
  • 要麼Python模塊,或Command行程序(或C-庫我可以變成一個命令行程序:))

或者:

  • 這是一個不錯的圖像庫,它可以進行圖像預處理,使像tesseract這樣的現有引擎的性能更好。

回答

1

正方體本身可以任意做出與Leptonica,一個漂亮的一套詳盡的圖像處理庫(我不知道,如果正方體本身使用它的任何東西不是支持不僅僅是基本的TIF格式越多編譯)。可以在the website.上找到完整的功能列表項目作者Dan Bloomberg撰寫了一些關於OCR圖像預處理的文章,這些文章也許對您很感興趣 - 您可以通過Google搜索找到它們。

+0

謝謝!我會再次嘗試Tesseract,並繼續尋找更好的(=更多automagic)預處理庫。 – Krumelur

相關問題