2017-02-17 51 views
0

我需要關於tesseract的建議。我嘗試使用Tesseract,但結果並不完美。很多信息缺失。我想掃描法國車輛的註冊證書,我必須將數據恢復到數據庫中。你可以在文件下面找到它是法國註冊證書。是否有可能檢測到本文檔中的每個區域並將這些信息保存在數據庫中?我已經在互聯網上閱讀過,只有Tesseract才能檢測到區域?如何使用Tesseract從車輛認證卡獲取文本區域

你有例如區域A,B,C.1,D.2.1。如何檢測/掃描每個區域並將這些信息插入數據庫中?

例子: https://www.ecartegrise.fr/wp-content/uploads/2013/03/nouvelle-carte-grise-specimen.jpg

我想做到這一點: http://www.adoc-solutions.eu/images/Documentations/cartes-grises.png

如何休養生息每個區域的文本並插入到數據庫中呢?

感謝您的幫助

尼古拉

回答

0

其實我工作的一個項目相似,你我的建議 OCR技術?光學字符識別 有幾個OCR工具可以從pdf格式或圖像中提取數據,這要歸功於OCR,這裏列出了我推薦的OCR工具: -Convertio -PDFMiner:PDF2txt-PDF2Word -Tabula:從表中提取數據 -Abby FineReader 14 -DataWatch

,如果您有任何補充信息,請做份額

0

我正在提取PDF表格和表格數據相當長的一段時間。我認爲解決您的問題的方法是首先檢測寫入文本的所有區域,然後創建一個到列的映射。

如果註冊表單在本質上是靜態的,意味着如果特定字段的文本區域是固定的,那麼您可以創建一個特定於您的問題的模板,然後從這些定義的座標中裁剪圖像,然後嘗試應用tesseract。

Tesseract不是100%正確的,所以爲了提高準確性,您可以在數據上進行訓練。