有沒有一個OCR可以比較它所看到的與我給它可能的單詞列表？

我正在尋找一個開放源代碼的OCR，但我可以告訴程序哪些字母，我希望它尋找。例如，如果只有字母和逗號是可能的，那麼我不希望OCR浪費資源來發現它是否是一個數字。另外，我希望OCR能夠輸出它所「看到」的可能性。例如，它有一個'I'，那麼OCR可能會認爲它是一個小寫的'L'，但它也應該有'I'。基本上我想讓OCR給我一個可能性列表，也許是數字來表明它有多確定。舉例來說，它可能會說'l'：55％，'I'：40％，其他：5％。有沒有一個OCR可以比較它所看到的與我給它可能的單詞列表？

另一件事是我會知道什麼樣的文字類型的字母，即阿里爾，所以沒有必要在OCR比較和對比不同類型的文字。

基本上，我正在寫一個只存在一定數量可能性的程序。例如，假設我使用OCR從元素週期表中讀取元素。元素數量有限，因此OCR應該能夠猜測「HeIeun」實際上是「Helium」。

有沒有這樣的事情，還是我不得不爲自己編寫一個工作？謝謝。

來源

2012-07-16 user1527726

你可能想看看google開發的開源項目tesseract，它給出了非常好的結果並且對OCR有很多支持。

用於提供您自己的單詞識別文本列表只需用您自己的單詞列表替換tessdata/eng.user單詞，格式相同 - UTF8文本，每行一個單詞。

要獲得非常高的準確度this問題。

來源

2012-07-20 05:17:39 nexus

有沒有一個OCR可以比較它所看到的與我給它可能的單詞列表？

回答

相關問題