2013-03-21 82 views
3

我目前的項目涉及將pdf中的文本轉錄爲文本文件,我首先嚐試將圖像文件直接放入OCR程序(tesseract),但它沒有做得很好。 原始圖像文件基本上都是舊報紙,並且有一些背景噪音,我相信tesseract有問題。所以我試圖在將它送入tesseract之前使用一些圖像預處理。是否有任何適合這種情況的開源圖像預處理引擎的建議?關於如何使用它的說明會更加讚賞!圖片OCR過程前的預處理

回答

3

我從來沒有聽說過的的「圖像預處理引擎」爲了這個目的,但你可以在OpenCV(開源計算機視覺庫)看看,並實現自己的「預處理引擎」。 OpenCV是一個計算機視覺庫,提供許多功能來執行圖像處理。你可能想測試作爲預處理步驟是應用門檻的圖像以去除噪聲和東西

一個有趣的事情。無論如何,我已經在this thread中討論過這類東西。

2

就像@karlphillip提到的那樣,我非常懷疑有一個容易使用的預處理引擎可以滿足您的需求,因爲預處理技術與期望的結果差異很大。

一些常見的方法來清理噪聲圖像的文本包括: 1.自適應閾值(Sauvola或Niblack二值化) 2.應用一個尺寸比文本稍大的中值濾波器獲得的背景圖像,然後從原始圖像中減去背景(去除較大的噪音,如摺痕,污漬,手寫筆記等)。

OpenCV實現了這些過濾/二值化方法。如果你有機會獲得已發表的文獻,那麼在噪音文件的二值化方面還有很多工作要做。

+0

所以一旦我學會了如何使用OpenCV,我可以使用那些實現的方法來過濾文檔圖像? – Sardonic 2013-03-23 20:37:37

+0

看起來我錯了。 OpenCV沒有Suvola或Niblack實現(雖然有一個自適應閾值函數可能會給出類似的結果)。它確實有Otsu二值化,如果在整個圖像上有一致的光照,它可以爲你工作。所以,回答你的問題,是的。 – Noremac 2013-03-25 13:57:13

0

結賬ScanTailor。它具有非常令人印象深刻的預處理功能,它是開源的。

+1

旋轉,去扭曲和分頁並不能真正打動我。 OCR還有很多工作要做。特別是將彩色圖像轉換爲真正的黑白圖像是重要的一步。 – Elmue 2018-01-09 01:38:11