2013-07-23 66 views
4

我需要檢查的圖片一噸,看看他們是否對他們的關鍵詞。任何人都可以推薦一個好的,可靠的OCR庫嗎?我會很高興爲了準確而犧牲速度。Java OCR庫的建議?

+0

怎麼樣Weka的? http://weka.wikispaces.com/Use+WEKA+in+your+Java+code – codeMan

+0

標記爲脫離主題。 – sschrass

回答

14

沒有純粹的Java OCR庫有something to do with accuracy。根據你的預算,你可以選擇一些不是純粹的Java,但可以從Java調用:

  • 如果你有足夠的時間,但零預算 - 你的選擇是Tesseract。它是definetely之間開源
  • 最好的如果你有小的預算花費,你只需要運行一次認識到這一點 - Cloud OCR API服務將是你最好的選擇。它基於領先的紀念級別的OCR發動機,並提供相當實惠的每個項目價格。聲明:我ABBYY
  • 工作,如果你需要將永遠運行這個識別爲持續不斷的過程,那麼你可能會認爲這是經濟上更有效地購買專門的轉換軟件,例如this one,它的API,可以被稱爲也來自Java。但如果你準備在許可證上投入一定的預算,實際上有很多選擇。
+1

Fyi .. tesseract sux..wayyyy需要很多預處理,開源,它更好地花費$你需要做準確的處理..準確的OCR只是那些「付費玩」的需求之一, –

+0

完全符合病毒Jeryl同意。 tesseract還不夠好。 –

1

如果您有計劃識別非拉丁或數字符號,那麼更好的方法是找到非java庫,但從一些(外部)工具中選擇並使用其他方式(1)獲取文本。 在Linux我已經通過命令行界面使用楔形(2)。例如,

  1. 命令行界面和管道。

  2. 楔形文字已經移植在Linux上,但我不知道有關工作的命令行界面的Windows