2015-06-17 164 views
3

我試圖從圖像中檢測阿拉伯數字(阿拉伯語 - 印度語)。阿拉伯數字識別

嘗試的Tesseract OCR它並沒有爲我工作(它不承認阿拉伯語詞彙,但不是數字) 這裏是像我想從中提取的頁面數(頁面的頂部)

enter image description here

我試圖用imagemagick來比較那個圖像與較小的已經制作的包含所有書號可能性的小圖像,但它沒有奏效,我認爲它會花費那麼多時間。

什麼是實用的非複雜解決方案? PS:圖片將來自Android手機,並將在Windows或Linux服務器上解析。

回答

0

事實上,Tesseract並不是您的問題的有效解決方案,也不是任何商業阿拉伯語OCR。 您需要有一個自定義的OCR解決方案,您可以在樣品上進行培訓並指定您的特殊處理規則。

您仍然可以使用Tesseract,但以其源代碼和培訓工具的形式自行構建自定義解決方案。 要爲阿拉伯語定製Tesseract,您可能會發現此鏈接有幫助 arabicocr.wordpress.com