我正在寫OCR識別程序。它正常工作與掃描的文本,但是,有兩個問題:如何從文字圖像中區分照片
- 它詳細介紹了照片誤報(一些垃圾隨機文本,如「bkigopes」)
- 它的工作原理相當緩慢
的目標是找到所有帶有文本的圖像並提取此文本。所以,如果提到的問題,我需要快速拒絕照片。我希望有一些數學(統計)方法,比如計算一些中值數字,這可以很容易地確定彩色圖像,而沒有像掃描文本那樣的任何明顯結構。
這種方法/配方不應該被特殊類型的圖像欺騙,例如,帶有截圖或雜誌頁面的文本,裏面有很多文字和圖片。此外,彩色文字(例如黃色的紅色)不應被拒絕。
有沒有人遇到過這樣的問題?任何想法或現成解決方案?
感謝您的快速主意。我想這可能會起作用(不知道這是否會被雜誌文章欺騙)。你有什麼鏈接來執行這樣的計算? – Alex
@亞歷克斯:不!我甚至不太熟悉自己的數學(!),這只是一個突然出現在我腦海中的想法。 :)我的推理是,文本是組織良好,而圖像是相當隨機的,所以計算熵可能是一個好主意。 – Mehrdad
哈哈嗨Mehrdad。我認爲這不適用於OCR應用程序,因爲文本存儲爲圖像。如果您之前掃描過文檔,您會注意到壓縮量(與熵有關)並不是異常高。 – tskuzzy