我目前的工作在某種OCR(光學字符識別)系統。我已經寫了一個腳本來從文本中提取每個字符,並清除(大部分)違規行爲。我也知道字體。我現在有例如圖像是:OCR和性格相似
M(http://i.imgur.com/oRfSOsJ.png(字體)和http://i.imgur.com/UDEJZyV.png(掃描))
K(http://i.imgur.com/PluXtDz.png(字體)和http://i.imgur.com/TRuDXSx.png(掃描))
C(http://i.imgur.com/wggsX6M.png(字體)和http://i.imgur.com/GF9vClh.png(掃描))
對於所有這些圖像,我已經有一種二進制矩陣(1爲黑色,0爲白色)。我現在想知道是否有某種類似數學投影的公式來查看這些矩陣之間的相似性。我不想依賴圖書館,因爲這不是我給的任務。
我知道這個問題似乎有點模糊,也有類似的問題,但我正在尋找的方法,而不是一個包,到目前爲止,我無法找到有關該方法的任何意見。這個問題含糊不清的原因是我真的沒有必要開始。我想要做的事實際上是在維基百科上描述的:
矩陣匹配涉及將圖像與存儲的字形逐像素地進行比較;它也被稱爲「模式匹配」或「模式識別」。[9]這依賴於輸入字形與圖像的其餘部分正確隔離,並且存儲的字形具有相同的字體和相同的比例。這種技術最適合打字文本,遇到新字體時效果不佳。這是早期的基於光電池的OCR實現的技術,相當直接。(http://en.wikipedia.org/wiki/Optical_character_recognition#Character_recognition)
如果有人能夠幫助我解決這個問題,我將非常感激。