我正在尋找一種方法來確定最「不同」或「可識別的」N個ASCII字符......例如,如果N = 10,從0x21到0x7E的ASCII集中最不同的N個字符是什麼?顯然,字符「X」與「O」(字母)非常不同,但「O」(字母)非常類似於「0」(零)。假設一個受限制的OCR字符子集,使得零和字母O只能被檢測爲一個或另一個,並且不必擔心它是零還是字母O,那麼最不同的N典型的OCR引擎(例如Tesseract)能夠從低質量的輸入圖像中輕鬆識別字符?假設。如「+」和「t」可能被廣泛地誤認爲是彼此。可以被製作,並且因此每個輸入字符,無論是「+」還是「t」只會對應於一個或另一個。OCR - 大多數「不同」或「可識別的」ASCII字符?
感謝, 本
我認爲字符的選擇取決於用來識別它們的方法。你爲什麼想這樣做? – Amok 2009-09-11 19:03:50
其實,我認爲這將取決於更多的字體比其他任何... – 2009-09-11 19:11:26
這也不是很有用提出單個單獨的字母問題,因爲OCR錯誤經常混淆「D」與「CL」,「M」與「rn」等 – ShreevatsaR 2009-09-11 19:21:12