2014-01-16 30 views
1

即時通訊嘗試從圖像中使用tess-two在android上獲取文本。苔絲二OCR不工作

但它給了我一個非常糟糕的結果

01-16 12:00:25.339: I/Tesseract(native)(29038): Initialized Tesseract API with language=spa 

,並像30秒後它表明這是結果字符串:

{ga 
., 
r¿ 
y「: A 
    r M í 
:3 
' ‘Ev’.-:.. -: A 7 
» w- ?" _ 
Á.» ¿"A ¿rw-V r 
mjÏfn 'n’n . Y 
' "\'ZA".‘.¡ A‘ :‘ïvAv- « ‘ 
:"Éf‘Ï'" -Ï«l :‘,.v:...»- . 
' RFI' .. ’ g)" 3;:- 1-;4', 
= * ¿,arifgggk mw; .1. , 
' "53» "J 
't‘ ‘ ¿Las ;.‘».L',-‘» 
' ' 'N‘「 "「=: - '. V . ‘9! 
5.? ' 「F a .「 
Y , <_ 7- . 7.-, . 
;« z "1:;2wr . A - . ' -»‘ 5「: 
「4-」, ¿rn 73:33: w v'.‘ ¿a ‘ A ,z, v VA 
...,,« ' 'Q ' ‘ 4 214€. 5 . AV ¿JL y .13: 
1 » . 21mm; » ¿ati-「fl ¿ab-1377*「 w」 
. x ‘ ‘ ú F v'v: 
1 . ' . ; (「ya í . 
當然

那不是正確的,使用這張照片的IM: enter image description here

我已經試了很多次,總是有類似的結果。

什麼可能是錯的,這是一個使用苔絲二

TessBaseAPI baseApi = new TessBaseAPI(); 
    baseApi.init("/mnt/sdcard/external_sd/tess/", "spa",TessBaseAPI.OEM_TESSERACT_ONLY); 
    baseApi.setImage(bitmap); 
    String recognizedText = baseApi.getUTF8Text(); 
    Log.d("Texto leido", "texto: "+recognizedText); 
    baseApi.end(); 

我的代碼,這是我如何使用一個imageview的是位圖從文件

BitmapFactory.Options options = new BitmapFactory.Options(); 
    options.inPreferredConfig = Bitmap.Config.ARGB_8888; 
    Bitmap bitmap = BitmapFactory.decodeFile(photopath.getAbsolutePath(), options); 

IM得到的位圖,它似乎正確的,所以我找不到爲什麼它的工作很糟糕。

有什麼想法?

+1

質量非常差的圖像。右下角像字母一樣黑暗。嘗試更好的照片,並裁剪空白區域。 – 18446744073709551615

+0

另外,exif可以指定旋轉,不確定是否是這種情況。 – 18446744073709551615

+0

你有沒有試圖增加圖像的對比度? – Matt

回答

1

這裏更改圖像文本語言的語言代碼。

例如:如果你想英文文字識別,然後用 '工程',或西班牙語語言 '溫泉'

1)

TessBaseAPI baseApi = new TessBaseAPI(); 
     baseApi.init("/mnt/sdcard/external_sd/tess/", "eng"); 
     baseApi.setImage(bitmap); 
     String recognizedText = baseApi.getUTF8Text(); 
     Log.d("Texto leido", "texto: "+recognizedText); 
     baseApi.end(); 

2) Download here 您下載語言包文件必須下載osd.traineddata.zip文件和tesseract-ocr-3.01.eng.tar.zip(這裏英文,西班牙文..等spa)文件粘貼到資產文件夾。

3)設置位圖之前轉換成灰度圖像位圖

+0

不能找到那osd.traineddata.zip文件那裏你的意思是tesseract-ocr-3.01.osd.tar.gz? – Nanoc

+0

@Nanoc,你可以從[link]下載osd.trainned.zip文件(http://code.google.com/p/tesseract-ocr/source/browse/trunk/tessdata/osd.traineddata?r=540&spec= svn540)。 –

+0

我已經完成了所有這一切,仍然使用英語訓練數據+ osd並轉換爲灰度,結果相同 – Nanoc