2012-07-16 37 views
1

我正在尋找一個開放源代碼的OCR,但我可以告訴程序哪些字母,我希望它尋找。例如,如果只有字母和逗號是可能的,那麼我不希望OCR浪費資源來發現它是否是一個數字。另外,我希望OCR能夠輸出它所「看到」的可能性。例如,它有一個'I',那麼OCR可能會認爲它是一個小寫的'L',但它也應該有'I'。基本上我想讓OCR給我一個可能性列表,也許是數字來表明它有多確定。舉例來說,它可能會說'l':55%,'I':40%,其他:5%。有沒有一個OCR可以比較它所看到的與我給它可能的單詞列表?

另一件事是我會知道什麼樣的文字類型的字母,即阿里爾,所以沒有必要在OCR比較和對比不同類型的文字。

基本上,我正在寫一個只存在一定數量可能性的程序。例如,假設我使用OCR從元素週期表中讀取元素。元素數量有限,因此OCR應該能夠猜測「HeIeun」實際上是「Helium」。

有沒有這樣的事情,還是我不得不爲自己編寫一個工作?謝謝。

回答

0

你可能想看看google開發的開源項目tesseract,它給出了非常好的結果並且對OCR有很多支持。

用於提供您自己的單詞識別文本列表只需用您自己的單詞列表替換tessdata/eng.user單詞,格式相同 - UTF8文本,每行一個單詞。

要獲得非常高的準確度this問題。

相關問題