是否可以對tesseract進行培訓以識別和處理格式化文檔？

我嘗試了一些標準文本圖像的tesseract。這很棒。現在我可以教tesseract瞭解文檔的格式嗎？我的意思是讓我們邀請一張邀請卡。可能有一個方框可能會寫入時間和地點。如果說只有三種格式可以用於所有婚禮請柬（我想處理），我可以教tesseract以某種方式看到這個？或者我應該以某種方式「擴展」自己的代碼？是否可以對tesseract進行培訓以識別和處理格式化文檔？

來源

2014-12-26 user220201

正如我所知，tesseract不是佈局分析中的最佳選擇。在我的測試場景中，如果圖像包含一些非文本部分（例如佈局），我會遇到問題並取得良好效果。還有許多其他商業OCR庫或商業產品可用，它們也可以很好地處理佈局分析。如果你想使用免費的開源庫，如正方體，我會推薦給你的程序分成以下幾部分：你的興趣（圖像部分地區

文本檢測只包含文本，也可以更子圖像）
處理這些圖像前爲正方體輸入，禁用所有的佈局在正方體分析，並只將其用於字符識別，

爲此我將使用免費的開源庫的OpenCV中的C++文本檢測部分。

關於你的問題，如果正方體可以自動檢測結婚證的類型：

它可以執行一些版面分析及做字符檢測之後，卻會做同樣的流程，所有類型的圖像。據我所知，只能處理tesseract輸入圖像和矩形，其中tesseract應該執行ocr，但正如我所知，該選項僅在使用tesseract與C++代碼時纔可用，而不是通過命令行。

來源

2015-04-12 10:41:40

是否可以對tesseract進行培訓以識別和處理格式化文檔？

回答

相關問題