我正在爲我的數字圖像處理的最終檢查製作名片掃描儀,我會問你如何預處理名片的照片,以便tesseract可以識別文本。我嘗試了很多東西,比如侵蝕,擴張,閾值,但是我不能有一個好的結果......你能幫助我嗎?圖像預處理tesseract
謝謝
馬爾科
我正在爲我的數字圖像處理的最終檢查製作名片掃描儀,我會問你如何預處理名片的照片,以便tesseract可以識別文本。我嘗試了很多東西,比如侵蝕,擴張,閾值,但是我不能有一個好的結果......你能幫助我嗎?圖像預處理tesseract
謝謝
馬爾科
如果您關注的是隻有文字識別,而不是關於預處理,可以考慮使用ScanTailor。它是一個優秀的預處理工具,它是開源的。
如果您想自己實現預處理,您可能需要查看this paper - 尤其是偏斜校正和背景估計。這裏描述的算法的結果很好。 ScanTailor使用其中的一些。
我會推薦開放源代碼的C++圖像處理庫OpenCV與開源免費光學字符識別(OCR)庫tesseract的組合。 因爲你的你的問題的信息不是很具體,我可以回答一般 你的問題在OCR的主要程序是:
幾句話的Tesseract: 有是網上圖書館提供的大量信息。這是一個谷歌開放源碼庫用於谷歌書籍OCR的目的。也可以處理圖像中的佈局分析,但並不完美,因此您自己進行預處理並僅使用tesseract來處理真實的字符識別部分,可以獲得更好的效果。隨意質疑,如果你仍然有問題,或者如果我錯誤理解你的問題。
提供一些圖像以顯示您的採集質量如何。 – krzych 2012-08-09 09:29:14