2011-07-14 49 views
3

有沒有人知道任何圖書館(最好是Java,但我會看看任何東西),這將允許我分解圖像中的文本併爲每個單詞創建較小的圖像?我已經測試了GOCRtesseract,但我並不想抄錄這些文本,並且在許多情況下(例如手寫筆記或功能不佳的打字機),文本必須由人類轉錄。大部分文本都是西班牙文,這也使得OCR更加困難。我搜索了stackoverflow檔案,沒有發現任何東西。我的問題的目的是在大學裏,我們有幾十萬本真正舊的手寫筆記,如果我可以逐字地將它們分解成較小的圖像,那麼我們可以嘗試抄錄和翻譯它們。從圖像中的文本創建單詞圖像

+0

作爲提醒,請考慮到許多的話可以只在上下文中被翻譯,並且不是獨立的(英語是糟糕與同音,例如 - 風[推動雲]和風力[了時鐘]) 。 –

+0

正確。在這一點上,我甚至沒有興趣翻譯。它只是圍繞每個單詞創建一個框,然後將其保存爲稍後用於轉錄的圖像。謝謝你的幫助。 – Nicholas

回答

3

http://sourceforge.net/projects/javaocr/

特別是,下面的屏幕截圖似乎與你追求的。

Java OCR Image Tracer Screenshot

+0

感謝您的回覆!這是一個很好的開始,但我將不得不調整草書的手寫。我不需要像文字一樣逐字地將它們轉錄成小圖片。 – Nicholas