OCR - 大多數「不同」或「可識別的」ASCII字符？

我正在尋找一種方法來確定最「不同」或「可識別的」N個ASCII字符......例如，如果N = 10，從0x21到0x7E的ASCII集中最不同的N個字符是什麼？顯然，字符「X」與「O」（字母）非常不同，但「O」（字母）非常類似於「0」（零）。假設一個受限制的OCR字符子集，使得零和字母O只能被檢測爲一個或另一個，並且不必擔心它是零還是字母O，那麼最不同的N典型的OCR引擎（例如Tesseract）能夠從低質量的輸入圖像中輕鬆識別字符？假設。如「+」和「t」可能被廣泛地誤認爲是彼此。可以被製作，並且因此每個輸入字符，無論是「+」還是「t」只會對應於一個或另一個。OCR - 大多數「不同」或「可識別的」ASCII字符？

感謝，本

來源

2009-09-11 user21293

我認爲字符的選擇取決於用來識別它們的方法。你爲什麼想這樣做？ – Amok 2009-09-11 19:03:50

其實，我認爲這將取決於更多的字體比其他任何... – 2009-09-11 19:11:26

這也不是很有用提出單個單獨的字母問題，因爲OCR錯誤經常混淆「D」與「CL」，「M」與「rn」等 – ShreevatsaR 2009-09-11 19:21:12

不幸的是我不認爲這會有一個唯一的答案。

這將取決於字體：比較0，f，s代表的不同方式，也風格蓬勃發展。

這將取決於角色在被掃描前受到的傷害類型，其中一些可能對污點更有抵抗力，另一些可能會對抗裁員，其他人會反對覆蓋。

如果您正在尋找最適合打印，掃描和OCR的生存表示，那麼一維或二維條碼可能是更好的選擇？

來源

2009-09-11 19:13:02

只有一個回答這個問題的方式：對其進行測試。爲每個字母創建一組樣本，並對每個樣本運行OCR。 OCR最常用的字母是最「可識別的」; OCR最常出錯的字母是最「不同」的字母。

來源

2009-09-11 19:02:20 MusiGenesis

OCR - 大多數「不同」或「可識別的」ASCII字符？

回答

相關問題