2009-09-11 38 views
1

我正在尋找一種方法來確定最「不同」或「可識別的」N個ASCII字符......例如,如果N = 10,從0x21到0x7E的ASCII集中最不同的N個字符是什麼?顯然,字符「X」與「O」(字母)非常不同,但「O」(字母)非常類似於「0」(零)。假設一個受限制的OCR字符子集,使得零和字母O只能被檢測爲一個或另一個,並且不必擔心它是零還是字母O,那麼最不同的N典型的OCR引擎(例如Tesseract)能夠從低質量的輸入圖像中輕鬆識別字符?假設。如「+」和「t」可能被廣泛地誤認爲是彼此。可以被製作,並且因此每個輸入字符,無論是「+」還是「t」只會對應於一個或另一個。OCR - 大多數「不同」或「可識別的」ASCII字符?

感謝, 本

+0

我認爲字符的選擇取決於用來識別它們的方法。你爲什麼想這樣做? – Amok 2009-09-11 19:03:50

+0

其實,我認爲這將取決於更多的字體比其他任何... – 2009-09-11 19:11:26

+3

這也不是很有用提出單個單獨的字母問題,因爲OCR錯誤經常混淆「D」與「CL」,「M」與「rn」等 – ShreevatsaR 2009-09-11 19:21:12

回答

4

不幸的是我不認爲這會有一個唯一的答案。

這將取決於字體:比較0,f,s代表的不同方式,也風格蓬勃發展。

這將取決於角色在被掃描前受到的傷害類型,其中一些可能對污點更有抵抗力,另一些可能會對抗裁員,其他人會反對覆蓋。

如果您正在尋找最適合打印,掃描和OCR的生存表示,那麼一維或二維條碼可能是更好的選擇?

1

只有一個回答這個問題的方式:對其進行測試。爲每個字母創建一組樣本,並對每個樣本運行OCR。 OCR最常用的字母是最「可識別的」; OCR最常出錯的字母是最「不同」的字母。