我正在編寫一個Ruby應用程序,它從雜貨店收據中讀取文本,並允許用戶查看每盎司支付多少,並可能根據配料進行投放。我使用的Tesseract寶石非常簡單。但是,這些訂單往往是錯誤的,有時候也很滑稽,就像「捲心菜香菜」中的「粗壯荷蘭芹」一樣。從OCR中識別食品雜貨的方法閱讀
我假設解決這個問題在某種程度上是一種自然語言處理問題,但我目前還沒有背景知道什麼方向進入。我的第一個想法是破解別人的想法,讓Google請求,如果他們建議不同的東西,請使用它。但是,我想閱讀並瞭解如何正確解決此問題。
那麼我應該如何去解決我的魁梧香菜問題?
我認爲這實際上是一個相當大的問題,如果你正在談論解決它在一般情況下。爲了您的使用情況,我會考慮所有雜貨商品的字典。如果OCR提供的匹配與任何字典項目完全不匹配,則可以使用Levenshtein距離或類似方法測試非常接近的匹配項,並且如果找到匹配的匹配項,則使用該匹配項。如果它仍然沒有發現任何東西,只要使用原文,並希望它是一個還沒有在字典中的新項目。 – Jonah