2012-12-05 131 views
-1

enter image description here爲什麼tesseract失敗此圖像?

我試過在這張圖片上的tesseract和一些帶矩形內文字的掃描圖片。但每次都會有一些垃圾文本作爲輸出失敗。並糾正沒有框周圍的文字。請告訴我如何處理圖像或tesseract?請幫助

+0

後無論你已經試過.. –

+0

我曾嘗試用去除其像素值的矩形。 –

+0

he he:D .. ithe marathi允許ahe ka? btw mala yacha uttar mahit nahi kaaran mi tesseract var kaam kela nahi。抱歉! –

回答

0

正方體的圖像轉換分級前爲灰度,所以粉色系很可能被拾起爲文本。

僅提取從圖像中黑色像素,並且你應該罰款。您可以使用ImageMagick

+0

還,但結果是一樣的。 Tesseract沒有穿透外框。我該怎麼辦??? –

+0

你需要刪除盒子,而不是讓它們變黑。 – Osiris

+0

是的,但我會怎麼做? –

0

正如之前所說的,你應該得到這樣做OCR前擺脫粉色系(他們仍然有用 彷彿字符邊界)

一旦你extacted您gliphs和二元化他們(轉換爲位圖),您可以啓動到 使用tesseract就可以了。請記住,tesseract使用形狀提取方法並依賴於字典支持 - 您可以通過不變時刻獲得更好的結果(和更快的處理時間),如Hu

如果您對java base方法感興趣,那麼這裏是我們的OCR庫這只是在做純Java(可移植到其他語言):

http://sourceforge.net/projects/javaocr/

+0

謝謝,但你能告訴我圖像處理方法來刪除或檢測這些盒子因爲我必須處理與這樣的領域的圖像。 –

+0

這是基本的圖像處理的東西。遍歷圖像並檢查像素的顏色 - 如果他們的色調已關閉,則將其丟棄。你也可以計算積分inmages(在同一個y座標中的所有粉紅色像素的總和 - 它會給你峯值,你必須切割寶石),我會建議讓你的岡薩雷斯(或類似的書)。您還可以看看javaocr,項目提供的樣品有可能是你 –

+0

好,謝謝我wiil嘗試DAT一些線索 –