1
我正在使用Python/Django的Web應用程序,我需要從掃描文檔中提取文本(用於搜索索引)。嵌入式/可編寫腳本的OCR引擎有哪些選擇?
OCR引擎有哪些選擇?我知道tesseract,但我並不完全滿意的結果。問題可能可以通過更廣泛的預處理(旋轉,水平調整等)來解決。
要求:
- 應該不需要手動調諧(比初始調諧其他)
- 優選開源的,可選地應儘可能買「自由」許可證
- 要麼Python模塊,或Command行程序(或C-庫我可以變成一個命令行程序:))
或者:
- 這是一個不錯的圖像庫,它可以進行圖像預處理,使像tesseract這樣的現有引擎的性能更好。
謝謝!我會再次嘗試Tesseract,並繼續尋找更好的(=更多automagic)預處理庫。 – Krumelur