我嘗試了一些標準文本圖像的tesseract。這很棒。現在我可以教tesseract瞭解文檔的格式嗎?我的意思是讓我們邀請一張邀請卡。可能有一個方框可能會寫入時間和地點。如果說只有三種格式可以用於所有婚禮請柬(我想處理),我可以教tesseract以某種方式看到這個?或者我應該以某種方式「擴展」自己的代碼?是否可以對tesseract進行培訓以識別和處理格式化文檔?
0
A
回答
0
正如我所知,tesseract不是佈局分析中的最佳選擇。在我的測試場景中,如果圖像包含一些非文本部分(例如佈局),我會遇到問題並取得良好效果。還有許多其他商業OCR庫或商業產品可用,它們也可以很好地處理佈局分析。如果你想使用免費的開源庫,如正方體,我會推薦給你的程序分成以下幾部分:你的興趣(圖像部分地區
- 文本檢測只包含文本,也可以更子圖像)
- 處理這些圖像前爲正方體輸入,禁用所有的佈局在正方體分析,並只將其用於字符識別,
爲此我將使用免費的開源庫的OpenCV中的C++文本檢測部分。
關於你的問題,如果正方體可以自動檢測結婚證的類型:
它可以執行一些版面分析及做字符檢測之後,卻會做同樣的流程,所有類型的圖像。據我所知,只能處理tesseract輸入圖像和矩形,其中tesseract應該執行ocr,但正如我所知,該選項僅在使用tesseract與C++代碼時纔可用,而不是通過命令行。
相關問題
- 1. 如何培訓tesseract僅識別數字
- 2. 是否可以傳輸經過培訓的tesseract
- 3. 如何格式化數據集以進行Python培訓?
- 4. 是否可以在C#中培訓sapi?
- 5. 我可以以確定性的方式進行Keras培訓嗎?
- 6. Tesseract培訓問題
- 7. 系統是否可以使用OpenCV中的Haar培訓來識別手勢?
- 8. 通過培訓獲得更好的識別效果tesseract
- 9. 有沒有可以針對新符號進行培訓的OCR?
- 10. 是否所有MS Word文檔都以XML可讀格式進行序列化?
- 11. 有人可以向我解釋培訓Tesseract OCR嗎?
- 12. iPhone上的Tesseract培訓
- 13. 培訓的Tesseract - shapeclustering問題
- 14. 使用JTessBoxEditor培訓Tesseract-OCR
- 15. 遇到問題培訓tesseract
- 16. 是否可以對電影文件進行對象識別(mp4,mov,...)
- 17. 培訓tesseract和多頁面tiff
- 18. 是否可以使用XSLT對XML文檔進行顏色編碼和格式化?
- 19. 使用tesseract難以識別文字
- 20. 如何訓練tesseract以識別低DPI中的小數字?
- 21. 再培訓以來
- 22. Tensorflow和feed_dict以及批處理培訓集
- 23. 是否可以對項目元數據進行批處理?
- 24. 是否可以對Android視頻輸出進行後期處理?
- 25. 使用HAAR培訓進行便利貼識別
- 26. DocuSign是否可以自動對文檔進行簽名
- 27. Tesseract OCR是否可以擴展或訓練?
- 28. Tesseract Ocr Engine立方體模式 - 培訓Tesseract
- 29. 培訓solr以識別暱稱或名稱變體
- 30. 培訓NER分類器以識別作者姓名