2011-01-05 130 views
1

假設你有一個像下面的圖片:OCR結合字體識別?

alt text

你將如何建立一個服務來分析該圖像和處理的幾秒鐘,顯示對應於每個文本區域可編輯區域中的文件:

alt text

(該矩形是爲了顯示每個可編輯區域的邊界。)

該軟件將需要多種技術結合:

  • 字體檢測(最接近的匹配)
  • 文本樣式確定(字體大小,字體重量,行高,字母間距,字體 - 的CSS當量變體,文本修飾等)

從這裏,用戶將能夠編輯每個框中的文本來修改文檔。

回答

1

這是常見的OCR引擎通常所做的事情。看看ABBYY FineReader時,OMNIPAGE,楔形文字,谷歌Tessetact,Expervision等等

這並不容易,因爲它看起來就像許多商業OCR引擎仍然做出愚蠢的錯誤,最引擎已經花費數年時間來開發。

查找段落邊界框的問題是OCR過程的一部分。在你的情況下,段落分區很簡單,但想起報紙或雜誌的頁面,工作變得更加困難。

背景保存的問題同樣困難。簡單的單色背景很容易刪除,但添加一些更復雜的東西,並很快變得困難。

將所有三個問題結合在一起在同一個圖像,它變得更加困難。添加一些線條和框,灰度陰影,半色調,旋轉字體,淡入淡出和其他特殊效果,OCR幾乎變得不可能。許多OCR引擎在具有明確定義的文本的簡單頁面上100%準確,但是當您開始爲文檔添加更多複雜性時,閱讀速度開始快速下降。一些OCR引擎比其他引擎更好。

-1

如果你想有一個免費的圖書館要做到這一點,使用正方體。它會返回邊界框和一些其他功能以及OCR文本。

至於字體,我不確定是否可以在tesseract中訪問它的相關信息,但是如果沒有,只要有文本和圖片,就很容易找到與現有字體最接近的匹配。